Вивчення методики підвищення якості обробки електронних документів, що містять природно-мовні тексти, можливо з помилками. Розробка автоматизованої системи термінологічного та інтерпретаційного аналізу електронних текстових документів, що містять помилки.
Аннотация к работе
Роботу виконано в Донецькому національному університеті Міністерства освіти і науки України. Науковий керівник:доктор технічних наук, професор Каргін Анатолій Олексійович, завідувач кафедри компютерних технологій Донецького національного університету міністерства освіти і науки України, м. Офіційні опоненти:доктор технічних наук, професор Ходаков Віктор Єгорович, завідувач кафедри інформаційних технологій Херсонського національного технічного університету міністерства освіти і науки України, м. Захист відбудеться «12» січня 2009р. о 13.00 на засіданні спеціалізованої вченої ради К 11.051.08 у Донецькому національному університеті за адресою: 83000, м. З дисертацією можна ознайомитися в бібліотеці Донецького національного університету за адресою: 83000, м.Ці задачі частково вирішуються різноманітними апаратно-програмними комплексами, що мають узагальнену назву "Системи обробки тексту". Головна проблема існуючих методів та технологій обробки природно-мовних текстів, що використовуються в сучасних системах морфологічного та семантичного аналізу, є виділення з елементів графічного подання тексту (символ-слово-речення-абзац-текст) його семантичних сутностей (морфема-термін-фраза-думка-текст). Дослідження в галузі побудови систем обробки природно-мовної інформації з використанням цих моделей і механізмів останнім часом набувають популярності, однак усе ще залишаються невирішеними багато проблем, повязаних з розробкою моделей, методів і алгоритмів виділення семантичних елементів тексту, оцінки нечіткості елементів тексту та обробки помилок у символьному поданні тексту. Вирішення поставлених задач дозволило отримати автору такі результати: 1. вперше розроблена модель подання та обробки природно-мовних текстів, що містять помилки, структура якої відображає семантичні шари символ-морфема-термін. У роботах, виконаних у співавторстві та опублікованих у спеціалізованих виданнях переліку ВАК України, автору належать: [1] - розробка експерименту для дослідження методу інтерпретації аудіальних даних; [2] - розробка нечіткої моделі подання тексту; [6,11] - розробка модуля «Text-to-Term» у системі «Text-Term-Concept»; [9] - розробка моделі пошукової машини порталу; [10] - розробка моделі синтезу термінів.Найпоширеніший пошук ґрунтується на пошуку набору ключових слів у документі, хоча часто під час пошуку мався на увазі якийсь термін або терміни. У дисертації показано, що при переході від ключових слів до пошуку за термінами збільшується релевантність результатів пошуку, що дозволяє збільшити повноту пошуку, якщо задаються звязки між термінами. Кожен елемент словника символів S0 задається у вигляді структури: , (2) де - елемент алфавіту символів; - інформація про схожість символу на символ для всіх елементів алфавіту символів; - кількість елементів в алфавіті символів. ,(4) де - елемент алфавіту термінів; - послідовність елемента словника S1, що утворює термін ; - множина значень, що описує важливість кожного елемента послідовності ; - елементи словника S1, що є ключовими для терміна (кореневі морфеми); - кількість елементів алфавіту S1 у терміні (довжина терміна); - кількість ключових елементів алфавіту S1 у терміні ; - кількість елементів в алфавіті термінів. 2 підсистема «Text-to-Term» реалізується в додатку термінологічної розмітки «Text-to-Term», який доповнено наступними компонентами: «Терміни» - Web-додаток, що реалізує інтерфейс користувача; «TTT admin» - Web-додаток, що забезпечує функції адміністрування та редагування системи.Створені моделі обробки тексту дозволяють підвищити якість виділення значеннєвих елементів у природно-мовних текстах, що містять помилки. На основі класифікації помилок як інформаційного шуму, що зустрічаються в текстових документах - синтаксичних помилок (зміна, вставка або випадіння символу), та семантичних змін (зміни порядку слідування слів, зміни множини/роду/відмінку, вставка слів в середину фрази), запропоновано багаторівневу модель подання тексту. Це дозволяє врахувати можливі помилки на різних рівнях: синтаксичні помилки на символьному та морфемному та семантичні зміни на термінологічному рівні подання тексту. Багаторівнева модель подання тексту, що побудована на основі формалізації нечіткого фактору впевненості, дозволяє однорідно виразити нечіткі характеристики тексту рівнів символів, морфем та термінів у вигляді послідовності множин нечітких множин. Процес обробки тексту зведено до поетапного вирахування нечітких характеристик на базі первинного тексту та базових свідотств про спосіб створення тексту.