Лингвистические особенности организации ФИС (формулы изобретения на способ). Возможности переиспользования интерфейса системы автоматического синтеза формулы изобретения для определения запроса к системе автоматического поиска патентных текстов.
Аннотация к работе
Автореферат диссертации на соискание ученой степени кандидата филологических наукРабота выполнена на кафедре лингвистики и межкультурной коммуникации Южно-Уральского государственного университета. Научный руководитель доктор филологических наук, профессор Официальные оппоненты доктор филологических наук, профессор Защита состоится 28 октября 2006 года в ___ часов на заседании диссертационного совета К 212.274.05 по защите диссертаций на соискание ученой степени кандидата филологических наук при Тюменском государственном университете по адресу: 625000, г. С диссертацией можно ознакомиться в читальном зале библиотеки Тюменского государственного университета по адресу: 625000, г.Это относится, в частности, к патентным документам, так как новые технические решения и изобретения регистрируются посредством патентования. Такая необходимость проистекает из того, что в существующих сегодня системах используются в недостаточной степени разработанные модели извлечения информации, слабо учитывающие особенности ЕЯ. Недостаточная степень разработки систем извлечения информации, основанных на автоматической обработке естественно-языкового текста, объясняется трудностями, возникающими при описании сложной системы ЕЯ, что обусловлено его природой. В связи с этим повышение качества систем отбора информации возможно, с одной стороны, посредством ограничения обрабатываемой в системе информации до подъязыка конкретной предметной области (ПО), что позволяет за счет сужения контекста максимально сократить число возможных актуализаций значений в конкретных высказываниях. Целью нашего исследования является построение модели отбора информации из патентных текстов в узкой ПО, использующей модуль автоматической обработки текста на естественном языке для максимально полного представления знаний.Основными составляющими, определяющими существо модели извлечения информации, являются: 1) структура информационного массива; 2) лингвистический компонент, лежащий в основе процедуры отбора информации; 3) правила и процедуры, с помощью которых осуществляется отбор информации непосредственно. Это обусловлено тем, что: 1) естественный язык обладает наибольшей семантической силой, и поэтому является наиболее «эффективным» (с точки зрения человека) средством представления информации в терминах смыслоразличения и смыслоотождествления; 2) естественный язык является наиболее типичным средством экспликации смыслов и передачи информации, что является причиной того, что знания в современном мире, чаще всего, представляются в форме текстов на естественном языке, в частности, письменных текстов. Способ представления информации на естественном языке в поисковых массивах предопределяет ключевую роль лингвистического компонента в моделях извлечения информации. Лингвистический компонент системы поиска включает: 1) информационно-поисковый язык (ИПЯ), являющийся, как правило, ограничением естественного языка; степень и виды ограничения в ИПЯ определяются процедурами отбора информации, применяемыми в данной ИПС; 2) словарная база, включающая используемые в процедурах отбора информации лексиконы, тезаурусы, онтологии. Степень релевантности документа определяется по соответствию фразы запроса документу на основании: 1) наличия/отсутствия указанных в запросе ключевых слов в документе; 2) значений векторных коэффициентов, определяющих степень сходства векторов, репрезентирующих запрос и документ; 3) значений вероятностных коэффициентов, учитывающих степень важности каждого ключевого слова, указанного в запросе, для характеристики данного документа.
План
Основное содержание работы
Список литературы
1. Бабина, О.И. Частотные характеристики семантических классов предикатов, встречающихся в формулах изобретения патентов на метод в фармакологии / О.И. Бабина // Международная научно-практическая конференция «Теория и методика преподавания языков в вузе»: Тезисы докладов / под ред. Е.Н. Ярославовой. (Челябинск, 15-17 декабря 2003 г). - Челябинск: Изд-во ЮУРГУ, 2003. - С. 141-142.
2. Бабина, О.И. Предикатная лексика формул изобретения патентов на метод / О.И. Бабина // Фундаментальные и прикладные исследования в системе образования: Материалы 2-й Международной научно-практической конференции / отв. ред. Н.Н. Болдырев. (Тамбов, 28 марта 2004 г). - Тамбов: Изд-во ТГУ им. Г.Р. Державина, 2004. - Ч. 4. - С. 62-65.
3. Бабина, О.И. Специфика процедуры автоматического анализа текстов патентов на метод / О.И. Бабина // Объединенный научный журнал. №33 (125). Декабрь 2004. - С. 62-66.
4. Бабина, О.И. Грамматические характеристики предикатов формулы изобретения патентов на метод / О.И. Бабина // Вестник ЮУРГУ. Сер. Лингвистика. - Челябинск: Изд-во ЮУРГУ, 2004. - №1. - С. 8-12.
5. Sheremetyeva, S. Meaning-Text theory for textual input analysis and proofing in a generation system / S. Sheremetyeva, O. Babina // Восток - Запад: Вторая международная конференция по модели «Смысл o Текст» / отв. ред. Ю.Д. Апресян, Л.Л. Иомдин. (Москва, 23-25 июня 2005 г). - М.: Языки славянской культуры, 2005. - С. 458-466.
6. Бабина, О.И. Семантическое сопоставление образов запроса и документа при автоматическом документальном поиске / О.И. Бабина // Наука и образование. IV международная научная конференция: Материалы конференции. (Белово, 2-3 марта 2006 г). - Кемерово: Изд-во КЕМГУ, 2006.
7. Бабина, О.И. Автоматический отбор релевантной информации из информационного массива патентных текстов / О.И. Бабина // Вестник ЮУРГУ. Сер. Лингвистика. - Челябинск: Изд-во ЮУРГУ, 2006. - №2. - С. 67-72.