Інверсний контекстно-асоціативний метод та програмні засоби автоматизованої орфокорекції природномовних текстових об’єктів - Автореферат

бесплатно 0
4.5 234
Аналіз засобів автоматизованого виправлення орфографічних помилок в природномовних текстових даних. Розробка контекстно-асоціативних методів орфокорекції для підвищення роботи програмного забезпечення за показниками швидкості виправлення помилок.

Скачать работу Скачать уникальную работу
Аннотация к работе
У сучасних системах автоматизованої перевірки орфографії задача виявлення помилок, як більш детермінована та досліджувана триваліший час, розвязана у більшій мірі, ніж задача корекції спотворених слів, котра потребує визначення словоформи, яку автор тексту насправді мав на увазі. Далі вважатимемо, що інформація про спотворене слово та його контекст надходить до орфокоректора від інших програмних засобів. Проведення аналізу асоціативних звязків між словами уможливлює коректне звуження множини гіпотез, які мають бути оброблені під час визначення варіантів виправлення, що позитивно впливатиме на ефективність функціонування систем АОТ в цілому. З точки зору організації взаємодії орфокоректора з іншим програмним забезпеченням у межах систем АОТ перший найчастіше розробляють як жорстко вбудований до таких систем модуль або як автономну програму, до котрої при необхідності звертається сам користувач. Таким чином, дисертаційна робота, спрямована на розвязання задачі розробки контекстно-асоціативних методів виправлення орфографічних помилок та способів структурно-алгоритмічної організації програмних засобів, які реалізують ці методи, здатні функціонувати у межах систем АОТ та забезпечують підвищення ефективності роботи цих систем в цілому, є актуальною.У результаті аналізу встановлено, що хоча розробка програмного забезпечення виправлення орфографічних помилок є окремим широко досліджуваним напрямом у галузі створення систем АОТ, визначення способів організації орфокоректорів здебільшого базується на врахуванні загальних характеристик сучасного етапу розвитку систем АОТ, адже на сьогоднішній день коректори є невідємною складовою більшості згаданих систем. Для забезпечення можливості врахування значення слів системами АОТ у більшості випадків розробники віддають перевагу аналізу контексту, а не семантики граматичної структури окремих слів. Використання цих методів є єдиним можливим шляхом знаходження варіантів виправлення слів, які помилки перетворили на інші слова, котрі містяться у словнику. Оскільки контекстно-асоціативними методами обробки текстів передбачається звертання до лінгвістичних ресурсів, котрі містять дані про семантичні звязки між словами природної мови, у дисертації запропоновано використання у процесі орфокорекції програмного словника, на логічному рівні організованого у формі орієнтованого графу G = (Wdict, E), вершинами якого є лексеми природної мови Wdict, поєднані лексико-семантичними відношеннями з множини Е, як такого, що реалізує найпоширеніший ресурс для обробки змісту природномовних текстових даних - онтологію. Спосіб розроблено на основі іншого підходу до визначення звязку слова та контексту, який полягає в такому: вважається, що слово відповідає змісту свого оточення тоді, коли воно має семантичний звязок принаймні з одним значущим елементом контексту (не власним іменем, не словом зі «стоп-списку» тощо).У дослідженні під агентом розуміється самостійна програмна система, яка здатна отримувати дані від зовнішнього середовища, інтерпретувати їх та визначати свою реакцію на них. Стан зовнішнього середовища пропонується визначати за набором значень квазістатичних параметрів САОТ та за оперативними даними, які надходять до агента-коректора у вигляді повідомлень від інших компонентів системи або від користувача. Квазістатичними є такі параметри системи, значення яких під час її роботи змінюються дуже рідко (якщо змінюються взагалі), до числа котрих, перш за все, належать: структурна організація САОТ, функціональні характеристики САОТ (ступінь інтелектуальності алгоритмів аналізу текстових даних системою; характер текстових даних, з якими працює система; пріоритетність критеріїв визначення ефективності роботи системи), програмно-апаратне забезпечення роботи САОТ. До множини І пропонується включити дані про поточний стан складових агента-коректора, а також дані про можливість ініціювання роботи орфокоректора іншим модулем САОТ. Для забезпечення вищого ступеня універсальності застосування орфокоректор не тільки реалізує новий інверсний контекстно-асоціативний метод корекції спотворених слів, але і здатен формувати множину варіантів виправлення у разі, якщо контекст слова з помилкою або словниковий ресурс, обовязкові для проведення орфокорекції, відсутні.В дисертаційній роботі запропоноване нове вирішення задачі створення програмних засобів автоматизованого виправлення орфографічних помилок, яке знайшло відображення в розробці та експериментальному дослідженні інверсного контекстно-асоціативного методу орфокорекції, спрямованого на підвищення швидкодії та точності роботи відповідного ПЗ, а також у розробці способу структурно-алгоритмічної організації орфокоректора, яка забезпечує його інтегрованість до відкритих систем АОТ. На основі дослідження існуючих методів та засобів автоматизованого виправлення орфографічних помилок у природномовних текстових обєктах аргументовано доцільність використання алгоритмів семантичного аналізу текстових даних у ході орфокорекції, показано необхідність визначення міс

План
2. Основний зміст

Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность
своей работы


Новые загруженные работы

Дисциплины научных работ





Хотите, перезвоним вам?