Розробка електронних словників. Побудова інформаційної технології спеціалізованої обробки текстів природної мови через удосконалення лінгвістичного процесора для перетворення словників в електронну форму. Використання модифікованої мови розмітки XML.
Аннотация к работе
Інформація, яка циркулює в інформаційних системах, існує в конкретних формах: у вигляді даних, знань, фреймів, скриптів, текстів, гіпертекстів та ін. Тому при створенні сучасних інформаційних систем постійно зростають вимоги до дружнього інтерфейсу і, як наслідок, зростає потреба в дослідженнях прикладної лінгвістики, тобто існує обєктивна необхідність у тісній взаємодії наук інформатики і лінгвістики. Аналіз існуючих систем обробки текстової інформації, систем перекладу, пошукових систем, систем розуміння текстів, написаних природною мовою, показав, що існує необхідність у формуванні екстралінгвістичних знань, знань про навколишній світ, знань у конкретній області. 2) дослідити структуру представлення даних у паперових словниках і розробити засоби подання текстів у спеціальній електронній формі; Наукова новизна роботи полягає в наступному: вперше розроблено спеціалізовану інформаційну технологію, що реалізує автоматизоване перетворення структурованих текстів природної мови в їх електронну форму, що дозволило підвищити ефективність лексикографічного процесора в порівнянні з напівавтоматичною обробкою: час обробки тексту при автоматичному режимі зменшується в порівнянні з ручним режимом у 5•106 разів, а кількість помилок на 1000 рядків зменшується в 6 разів;Існуючих на даний момент електронних словників, які можуть бути інтегровані в інформаційно-пошукові системи, системи анотування, реферування і перекладу, недостатньо, а їх формат даних розрізнений, що робить важким їхнє використання в різних системах. У другому розділі наведено узагальнене поняття моделювання лексикографічних систем, визначено проблеми й завдання моделювання таких систем, досліджено особливості моделювання словника-тезауруса, запропоновано механізм розмітки текстів у документах. , де - заголовний дескриптор; - упорядкована за абеткою множина умовних синонімів даного заголовного дескриптора, створюючи разом з ним клас умовної еквівалентності; - упорядкована за абеткою множина дескрипторів, кожен з яких повязаний із заголовним дескриптором відношенням "рід - вид"; - упорядкована за абеткою множина дескрипторів, кожен з яких повязаний із заголовним дескриптором відношенням "вид - рід"; - упорядкована за абеткою множина дескрипторів, кожен з яких повязаний із заголовним дескриптором принаймні одним із таких парадигматичних відношень: ціле - частина, частина - ціле, причина - слідство, слідство - причина, функціональна схожість (асоціативні звязки). Розглянувши структуру словарної статті словника-тезауруса і її запис на мові розмітки структурованих текстів XML, сформулюємо набір правил для перетворення вхідних даних (словарна стаття) у вихідні дані (словарна стаття в XML запису). , де - дескрипторна група; - родовий дескриптор; - видовий дескриптор; - дескриптор; - умовний синонім; - асоціативний дескриптор; j - індекс словарної статті словника; ПРN - програма, що виконує перетворення; Rn - результат перетворення.У дисертаційній роботі вирішено науково-практичне завдання створення і використання інформаційної технології для автоматизованої переробки інформації у процесі створення електронних словників-тезаурусів. Проведено аналіз завдань обробки текстової інформації, що використовують для свого вирішення електронні словники, а також засобів автоматизації створення електронних словників. Вирішення задач розробки інформаційних технологій автоматизованого створення електронних словників дозволяє максимально ефективно інтегрувати електронні словники в спеціалізовані інформаційні системи (пошуку, класифікації, інформаційного стиску текстів та ін.). Досліджено структуру представлення даних у паперових словниках і розроблені засоби перетворення текстів у спеціальну електронну форму. Показано, що структура словарної статті будь-якого словника складається з двох частин: лівої реєстрової (дескрипторної) частини та правої, що містить заголовний ряд і позначає парадигматичні відношення дескриптора з іншими елементами словникової статті.
План
Основний зміст роботи
Вывод
У дисертаційній роботі вирішено науково-практичне завдання створення і використання інформаційної технології для автоматизованої переробки інформації у процесі створення електронних словників-тезаурусів. Основні результати роботи полягають в наступному: 1. Проведено аналіз завдань обробки текстової інформації, що використовують для свого вирішення електронні словники, а також засобів автоматизації створення електронних словників. Вирішення задач розробки інформаційних технологій автоматизованого створення електронних словників дозволяє максимально ефективно інтегрувати електронні словники в спеціалізовані інформаційні системи (пошуку, класифікації, інформаційного стиску текстів та ін.).
2. Досліджено структуру представлення даних у паперових словниках і розроблені засоби перетворення текстів у спеціальну електронну форму. Показано, що структура словарної статті будь-якого словника складається з двох частин: лівої реєстрової (дескрипторної) частини та правої, що містить заголовний ряд і позначає парадигматичні відношення дескриптора з іншими елементами словникової статті. Побудовано концептуальну математичну модель словника-тезауруса.
3. Розроблено вимоги до мови розмітки даних на прикладі словника-тезауруса і вироблено рекомендації користувачеві з настройки системи. Спираючись на рекомендації TEI і CES, розвинуто можливості XML з метою застосування її для розмітки структурованих текстів словників-тезаурусів. Визначені внутрішні атрибути розмітки, базові набори символів, правила привласнення імен, зарезервовані слова. Визначені назви тегів і синтаксичні правила їх представлення, що дозволило забезпечити гарантування однозначності розмітки та її інтерпретаційної частини. Вказано належність використовуваних тегів певним частинам документа, що дозволило зняти неоднозначність при обміні текстовою інформацією між різними системами.
4. Досліджено структуру лексикографічного процесора (ЛП) і запропоновано модифікацію його модулів розмітки. Розроблено інформаційну технологію та програмне забезпечення ЛП, що дозволило провести автоматичне форматування службової інформації до фрагментів словникової статті. Система дозволяє виконувати автоматичну перевірку структури одно типових словникових статей та забезпечує створення індексних файлів словників.
5. Розроблено інформаційну технологію перетворення структурованих текстів природної мови в спеціальну електронну форму з використанням вдосконаленої мови розмітки. Запропонований набір тегів розмітки для словників-тезаурусів сприяє виділенню смислових елементів та їх звязків в основному та звязаних документах, що дозволяє використати їх як інструкції, які управляють програмними засобами обробки структурованих текстів.
6. Проведено перевірку працездатності й ефективності розробленої інформаційної технології на прикладі створення електронного словника-тезауруса. Розроблене програмне забезпечення дозволило зменшити кількість помилок на тисячу слів перетворення в 6 разів, час обробки при цьому зменшився в 5•106 разів.
7. Розроблені модулі лексикографічного процесора впроваджені в Інституті проблем машинобудування НАН України для створення бази даних технічних статей і довідників, в навчальному процесі на кафедрі "Системи інформації" НТУ "ХПІ" при вивченні курсу "Природномовні інтелектуальні системи", розроблена компютерна програма "Модель XML-разметки лексикографического процессора обработки текстовой информации", що підтверджується відповідними актами про впровадження та реєстрацію.
Список литературы
1. Касилов О.В. Методы представления структурированных текстов естественного языка в XML-описании / О.В. Касилов // Вісник Національного технічного університету "Харківський політехнічний інститут". - Харків: НТУ "ХПІ". - 2002. - № 6. - Т.2. - С.3-8.
2. Касилов О.В. Основы разметки текстов / О.В. Касилов, А.Н. Самойлов, А.С. Шраер // Вісник Національного технічного університету "Харківський політехнічний інститут". - Харків: НТУ "ХПІ". - 2002. - № 9. - Т.7. - С. 191-195.
Здобувач виконав огляд існуючих методів розмітки структурованих текстів, сформулював вимоги до мови розмітки, яка застосована в лінгвістичному процесорі.
3. Касилов О.В. Моделирование лексикографических систем / О.В. Касилов // Вісник Міжнародного Словянського університету. Сер. "Технічні науки". - Харків.: - 2004. - Т.7. - № 1. - С.13-15.
4. Касилов О.В. Моделирование словаря-тезауруса. / О.В. Касилов // Вісник Національного технічного університету "Харківський політехнічний інститут". - Харків: НТУ "ХПІ". - 2004. - № 34. - С.88-93.
5. Касілов О.В. Компьютерная программа "Модуль XML-разметки лексикографического процессора обработки текстовой информации". / О.В. Касілов, І.А. Конопльов // Свідоцтво про реєстрацію № 22259. ДДІВ від 05.10.2007.
Здобувач виконав теоретичне обґрунтування розробки концепції і створення програми, розробку модулів програми, тестування і перевірку працездатності програми.