Системотехніка та технологія лексикографічних систем семантичного типу - Автореферат

бесплатно 0
4.5 134
Теорія лексикографічних систем семантичного типу. Розробка та формулювання лексикографічної бази даних тлумачного Словника української мови, клієнтської програми Українського національного лінгвістичного корпусу для поповнення словника ілюстраціями.


Аннотация к работе
НАЦІОНАЛЬНА АКАДЕМІЯ НАУК УКРАЇНИ Автореферат дисертації на здобуття наукового ступеня кандидата технічних наукОстаннім часом у теорії та практиці інформаційної науки все вагоміше місце займає розробка моделей, методів і технологій, орієнтованих на використання природної мови в компютерних системах. Саме тому все важливішим стає завдання розробки ефективних технологічних методів та засобів, що можуть бути застосовані при розвязанні однієї з основних проблем лінгвотехнології - проблеми значення одиниць та конструкцій мови, тобто семантично-орієнтованих засобів обробки природномовних інформаційних масивів. Ефективність же вимагає, щоб, по-перше, результати було отримано на мовному матеріалі значного обсягу; по-друге, щоб було вироблено і застосовано єдині методологічні принципи класифікації матеріалу; по-третє, щоб результати представлялися в уніфікованій формі, доступній та зручній для застосування в компютерних технологіях. Прикладом семантичних досліджень, орієнтованих на компютерні застосування, стали спроби автоматизованого аналізу змісту великих словників із метою виявлення в них різнопланових семантичних структур, зокрема праці під керівництвом Симмонса з аналізу структури словника Вебстера, дослідження структури та побудова семантичних мереж на основі Longman Dictionary of Contemporary English (праці Міхелса, Накамури та Нагао, Фоссена) та ін. Зважаючи на перспективи застосування цього словника як основи для компютерних семантичних аналізаторів природної мови, стає зрозумілим, що застосування компютерних технологій для його розробки є безальтернативним.Застосувавши цей підхід до тлумачного Словника української мови, отримаємо таке розвинення, тобто Л-систему з класом ЕІО "СЛОВО", яка підтримує рекурсивну редукцію другого порядку: Тут символом IW(U) позначено клас слів української мови; природною інтерпретацією структурного елемента ?0(IW(U)) виступає його інтерпретація як носія граматичної семантики, а P0(IW(U)), відповідно, лексичної семантики. У конструкції репрезентанта лексичної семантики P0(IW(U)) представлено цілу низку семантичних відношень, причому явно виділено ієрархію лексичних значень (для кожної лексеми вони зосереджені в структурному елементі LP01(IW(U)) і представлені у вигляді формул тлумачення) та відповідних мікроконтекстів (прикладів слововживань), які репрезентовано в елементах РР01(IW(U)). Другий розділ "Системотехніка та технологія лексикографічної системи тлумачного Словника української мови" присвячено побудові моделі даних та розробці технології створення ЛБД СУМА, створенню на цій основі інструментального комплексу для використання в процесі укладання нового тлумачного Словника української мови та її адаптації до тлумачного словника російської мови. Аналіз структур правих частин P(x) словникових статей СУМА дозволив вичленити структуротвірні елементи, подані на рис. Для забезпечення процесу автоматичної конверсії тексту СУМА до ЛБД було розроблено програмне забезпечення виділення елементів його структури відповідно до будови Л-системи та з використанням поліграфічних ознак їх текстової ідентифікації.У ході дисертаційного дослідження розвязано ряд актуальних науково-технічних проблем української лінгвістичної технології та отримано низку практично цінних результатів. Так, у дисертації побудовано лексикографічну модель даних для тлумачних словників, яка при застосуванні принципу рекурсивної редукції Л-системи дозволила вичленити у їх структурі основні структуротвірні елементи. З використанням розвиненої теорії розроблено концептуальну модель Л-системи тлумачного Словника української мови, на основі якої створено структуру ЛБД цього словника. Для укладання нового тлумачного Словника створено технологічний інструментальний комплекс, який дає можливість редагувати будь-які структурні елементи у ЛБД СУМА. Таким чином, розроблений у ході дисертаційного дослідження технологічний комплекс дозволив створити новий 20-томний тлумачний Словник української мови всього за 4 роки.

План
ОСНОВНИЙ ЗМІСТ РОБОТИ
Заказать написание новой работы



Дисциплины научных работ



Хотите, перезвоним вам?