Підвищення якості інтелектуальної обробки даних у автоматизованих інформаційних бібліотечних системах. Розробка логічної мережі для синтаксичного аналізу, моделі обробки текстової інформації у документах з використанням єдиного математичного апарату.
Аннотация к работе
Вони дозволяють вилучати з сирих неструктурованих даних за допомогою математичних методів (моделювання, прогнозування, кластеризації, класифікації тощо) раніше невідомі нетривіальні практично корисні й доступні для інтерпретацій нові знання. Це призвело до появи рішень для обробки текстової інформації - Text mining, які здійснюють за допомогою лінгвістичних методів наступні дії: тематичний пошук у текстах, класифікація та тематичне індексування документів, відповідь на запити, пошук за ключовими словами, виявлення обєктів і звязків між ними, анотування, реферування і т. ін. У межах окресленої проблеми важливими є наукові задачі розробки моделей, методів, алгоритмів та програм, які здійснюють моделювання процесів інтелектуальної обробки даних повнотекстових документів з метою визначення їх основних характеристик для побудови інформаційного, математичного, лінгвістичного і програмного забезпечення автоматизованих інформаційних бібліотечних систем (АІБС). Усе вищезазначене обумовлює актуальність розвитку моделей та методів інтелектуальної обробки даних і застосування цих методів для автоматизованої обробки мовної інформації в бібліотечних системах, що складає напрямок дисертаційної роботи. Дисертаційна робота виконана на кафедрі інтелектуальних компютерних систем НТУ "ХПІ" у межах держбюджетної теми МОН України "Розробка математичних моделей та методів розвязання задач інтелектуальної обробки інформації" (ДР № 0108U003926), у якій здобувач був виконавцем.У вступі шляхом аналізу відомого математичного та лінгвістичного забезпечення сучасних автоматизованих інформаційних бібліотечних систем обґрунтовано актуальність теми дисертації, зазначено звязок роботи з науковими темами, сформульовано мету і задачі дослідження, визначено обєкт, предмет і методи дослідження, показано наукову новизну та практичне значення отриманих результатів, наведено інформацію про практичне використання, апробацію та їх висвітлення у друкованих працях. На підставі критичного аналізу існуючих невирішених проблем та задач автоматизації бібліотечної діяльності сформульовано й обґрунтовано необхідність дослідження інформаційно-логічних моделей та методів ідентифікації знань для впровадження їх в автоматизовані інформаційні бібліотечні системи, а саме моделей та методів на етапах синтаксичного аналізу, індексування документів, рубрикації та класифікації документів. Визначено математичний інструментарій для ідентифікації знань з природно-мовних текстів на основі алгебри предикатів та предикатних операцій, а саме: показано моделювання знань на основі алгебри предикатів, моделі відношень на базі алгебри предикатних операцій, використання алгебри предикатних операцій для опису природно-мовних відношень у задачах ідентифікації знань, моделювання синтаксичної сполучуваності елементів речення. Формально операцію заміни відношення предикатом можливо записати наступним чином: Символ у цьому випадку позначає відношення, а символ - предикат. Таким чином, будь-якому відношенню у взаємно однозначну відповідність ставиться предикат, який на мові алгебри предикатів записується у формульному вигляді, використовуючи базисні предикати 0, 1 та предикат упізнавання предмету , а також базисні операції конюнкції та дизюнкції .Виявлено особливості тексту як обєкта моделювання, обробки та представлення знань, проаналізовані існуючі інформаційно-логічні моделі ідентифікації знань. Для моделювання процесів обробки повнотекстових даних обґрунтовано використання алгебри предикатів та предикатних операцій, проведено аналіз їх властивостей для представлення та ідентифікації знань. Створено інтегровану модель представлення знань, яка базується на традиційних логічних моделях та на моделях природної мови, з використанням алгебри предикатів та предикатних операцій. Розроблено логічну мережу для синтаксичного аналізу на базі моделей сполучуваності слів, яка спирається на структуру речення та семантику тексту в цілому, що дозволило перейти до єдиної математичної моделі обробки текстової інформації у документах з використанням єдиного математичного апарату.
План
ОСНОВНИЙ ЗМІСТ РОБОТИ
Вывод
У дисертаційній роботі вирішена актуальна науково-практична задача обґрунтування та розробки перспективної інформаційної технології інтелектуальної обробки текстових даних у автоматизованих інформаційних бібліотечних системах на основі інформаційно-логічних моделей та методів ідентифікації знань.
У процесі виконання дисертаційної роботи отримані наступні результати.
1. Проаналізовано сучасні інформаційні бібліотечні системи та сформульовані основні вимоги до їх математичного та лінгвістичного забезпечення. Виявлено особливості тексту як обєкта моделювання, обробки та представлення знань, проаналізовані існуючі інформаційно-логічні моделі ідентифікації знань.
2. Для моделювання процесів обробки повнотекстових даних обґрунтовано використання алгебри предикатів та предикатних операцій, проведено аналіз їх властивостей для представлення та ідентифікації знань. Створено інтегровану модель представлення знань, яка базується на традиційних логічних моделях та на моделях природної мови, з використанням алгебри предикатів та предикатних операцій.
3. Розроблено модель знання-орієнтованого синтаксичного аналізу у задачах анотування та реферування повнотекстових документів. Розроблено логічну мережу для синтаксичного аналізу на базі моделей сполучуваності слів, яка спирається на структуру речення та семантику тексту в цілому, що дозволило перейти до єдиної математичної моделі обробки текстової інформації у документах з використанням єдиного математичного апарату.
4. Удосконалено модель процесу систематизації та рубрикації повнотекстових документів у бібліотечних системах з використанням словника-тезауруса та методу компараторної ідентифікації, що дозволило точніше сформувати пошуковий образ документа та якісніше за змістом здійснювати рубрикацію документів та пошук у бібліотечній пошуковій системі.
5. Розроблено прикладну інформаційну технологію для ідентифікації знань у автоматизованих інформаційних бібліотечних системах. Проведено оцінку ефективності запропонованих семантичних моделей та методів обробки текстової інформації для реальних АІБС. Виділено і проаналізовано кількісні та якісні показники підрахунку ефекту від упровадження моделей, методів та алгоритмів.
6. Результати роботи впроваджено при розробці інформаційного, математичного, алгоритмічного й програмного забезпечення у наукову бібліотеку Харківського національного медичного університету, наукову бібліотеку Національної юридичної академії України імені Ярослава Мудрого (м. Харків), наукову бібліотеку Харківського національного університету радіоелектроніки, наукову бібліотеку НТУ "ХПІ" у вигляді інформаційно-логічних моделей, які були використані при розробці автоматизованої підтримки інформаційної бібліотечної системи, а також для тематичної систематизації та рубрикації повнотекстових документів та використані у навчальному процесі на кафедрі інтелектуальних компютерних систем НТУ "ХПІ" при викладанні спеціальних дисциплін «Інформаційно-ресурсне забезпечення лінгвістичної діяльності», «Автоматизована обробка природної мови».
Список литературы
1. Канищева О. В. Использование методов Data Mining и Text Mining для обработки текстовой информации в информационных системах / О. В. Канищева, Сайед Мохаммад Таухид Сиддики, Н. В. Шаронова // Біоніка інтелекту. - Харків : ХНУРЕ, 2005. - № 2(63). - С. 22-26.
Здобувачем обґрунтовано підхід до використання методів Data Mining і Text Mining для обробки текстової інформації в інформаційних системах.
2. Канищева О. В. Методы Data Mining в автоматизированных информационных библиотечных системах / Н. В. Шаронова, О. В. Канищева // Вестник Херсонского национального технического университета. - Херсон : ХНТУ, 2006. - № 1(24). - С. 157-162.
Здобувач запропонував метод компараторної ідентифікації як однин з логічних методів Data Mining для обробки повнотекстової інформації.
3. Канищева О. В. Эффективный анализ текстовой информации с помощью технологий Data Mining / Н. В. Шаронова, О. В. Канищева, Сайед Мохаммад Таухид Сиддики // Вісник Національного технічного університету "ХПІ". - Харків : НТУ "ХПІ", 2006. - № 19. - С. 87-92.
Здобувачем запропоновано підхід до використання методів Text Mining для обробки текстової інформації в інформаційних бібліотечних системах.
4. Канищева О. В. Использование алгебры предикатов и предикатных операций для формализации декларативной и процедурной составляющих знаний / З. А. Алисейко, В. И. Булкин, О. В. Канищева, Н. В. Шаронова // Біоніка інтелекту. - Харків : ХНУРЕ, 2006. - № 1(64). - С. 59-63.
Здобувач розробив математичну модель представлення знань з використанням алгебри предикатів та предикатних операцій.
5. Канищева О. В. Автоматизированное индексирование полнотекстовых документов ключевыми словами / З. А. Алисейко, О. В. Канищева // Вестник Херсонского национального технического университета. - Херсон : ХНТУ, 2007. - № 4(27). - С. 269-272.
Здобувачем розроблено алгоритм для автоматизованого індексування повнотекстових документів ключовими словами.
6. Канищева О. В. Идентификация информационных объектов в современной библиотеке с использованием алгоритма реферирования / О. В. Канищева, З. А. Кочуева, Н. В. Шаронова // Вестник Херсонского национального технического университета. - Херсон : ХНТУ, 2008. - № 1(30). - С. 126-130.
Здобувач запропонував підхід до ідентифікації інформаційних обєктів у сучасній бібліотеці, на основі використання алгоритму реферування.
7. Канищева О. В. Моделирование синтаксического анализа в задачах аннотирования и реферирования полнотекстовых документов / Н. В. Борисова, О. В. Канищева // Вісник Національного технічного університету "ХПІ". - Харків : НТУ "ХПІ", 2009. - № 4. - С. 87-96.
Здобувачем використана алгебра предикатів та предикатних операцій для моделювання синтаксичного розбору у задачах анотування та реферування.
8. Каніщева О. В. Алгебра скінченних предикатів як складова інформаційних технологій / С. В. Гончаров, О. В. Канищева // Збірник наукових праць Військового інституту Київського національного університету імені Тараса Шевченка. - К. : ВІКНУ, 2009. - № 22. - С. 80-84.
Здобувач використав алгебру скінченних предикатів для однакового представлення знань в електронних бібліотеках у вигляді рівнянь алгебри предикатів.
9. Канищева О. В. Моделирование процедур систематизации и предметизации полнотекстовых документов / З. А. Алисейко, О. В. Канищева, Н. В. Шаронова // Проблемы информационных технологий. - Херсон : ХНТУ, 2007. - № 1. - С. 140-144.
Здобувачем використаний метод компараторної ідентифікація в процедурах систематизації та предметизації повнотекстових документів.
10. Канищева О. В. Проблемы индексирования полнотекстовых документов по ключевым словам / О. В. Канищева, Н. В. Шаронова // Библиотеки учебных заведений. Научно-методический журнал для библиотек учебных заведений системы профессионального образования. - М. : ГУП, 2007. - № 23. - С. 25-32. - Режим доступу до журн. : www.lib-journal.ru.
Здобувач обґрунтовано використання методів статистичного контент-аналізу для індексування повнотекстових документів ключовими словами.
11. Канищева О. В. Применение методов Data Mining и Text Mining в автоматизированных информационных библиотечных системах / Н. В. Шаронова, О. В. Канищева // Международная конференция Украинской ассоциации дистанционного образования : материалы 10-й междунар. конф. Украинской ассоциации дистанционного образования. - Харьков-Ялта : ХНУРЕ, 2006. - С. 129-135.
Здобувачем обґрунтовано підхід до використання методу компараторної ідентифікації як одного з логічних методів Text Mining.
12. Канищева О. В. Обработка текстовой информации с помощью технологий Text Mining и компараторной идентификации / Н. В. Шаронова, Сайед Мохаммад Таухид Сиддики, О. В. Канищева // MEGALING"2006 Горизонти прикладної лінгвістики та лінгвістичних технологій : доповіді міжнар. конф., Україна, Крим, Партеніт, 20-27 вересня 2006 р. / Укр. мовно-інформаційний фонд НАН України, Таврійський національний університет ім. В.І. Вернадського. - Сімферополь : Вид-во "ДИАЙПИ", 2006. - С. 231-232.
Здобувач запропонував використання методу компараторної ідентифікації для обробки повнотекстових документів.
13. Канищева О. В. Идентификация знаний в электронных библиотеках / О. В. Канищева // Системный анализ и информационные технологии : тез. IX Междунар. науч.-практ. конф. - К. : НТУУ "КПІ", 2007. - С. 114.
14. Канищева О. В. Обработка текстовой информации с помощью технологий Text Mining и компараторной идентификации / Н. В. Шаронова, О. В. Канищева // Комбінаторні конфігурації та їх застосування : II міжвуз. наук.-практ. семінар. - Кіровоград : ДЛАУ, 2006. - С. 56-57.
Здобувачем проведено порівняльний аналіз методу компараторної ідентифікації та методів Text Mining для обробки текстової інформації.
15. Канищева О. В. Моделирование процессов реферирования и аннотирования полнотекстовой информации в библиотеках / Н. В. Шаронова, О. В. Канищева // Інтелектуальні системи в промисловості і освіті: тези доп. I міжнар. наук.-техн. конф. - Суми : СУМДУ, 2007. - С. 142-143.
Здобувач запропонував модель анотування та реферування з використанням алгебри скінченних предикатів.
16. Канищева О. В. Основы информационной технологии тематического рубрицирования / О. В. Канищева // Радіоелектроніка і молодь в XXI ст. : тези доп. 12-ого міжнар. молод. форуму. - Харків : ХНУРЕ, 2008. - С. 508.
17. Канищева О. В. Багаторівневий підхід до тонального аналізу повнотекстової інформації / О. В. Канищева // Компютерні науки та інформаційні технології : матеріали III міжнар. конф. CSIT"2008. - Львів : Вежа і Ко, 2008. - С. 134-136.
18. Канищева О. В. Проблема пополнения электронных словарей новыми словами / Н. В. Борисова, О. В. Канищева // Радіоелектроніка і молодь в XXI ст. : тези доп. 13-ого міжнар. молод. форуму. - Харків : ХНУРЕ, 2009. - Ч. 2 - С. 91.
Здобувачем запропоновано використовувати апарат алгебри скінченних предикатів для вилучення морфологічних характеристик нового слова у електронних словниках.
19. Канищева О. В. Использование алгебры предикатных операций для описания естественно-языковых отношений / О. В. Канищева // Інформаційні технології: наука, техніка, технологія, освіта, здоровя : матеріали XVII міжнар. наук.-практ. конф. - Харків : НТУ "ХПІ", 2009. - С. 16.
Здобувачем використав алгебру предикатних операцій для опису природно-мовних відношень.