Разработка и исследование модели нейросетевого метода анализа текстовых документов - Автореферат

бесплатно 0
4.5 156
Разработка алгоритма формирования информационных образов электронных текстовых документов, включающий механизм сокращения признаков, основанный на подходе к оценке тематической значимости признаков документов. Нейросетевой анализ коллекции документов.

Скачать работу Скачать уникальную работу

Чтобы скачать работу, Вы должны пройти проверку:


Аннотация к работе
Разработка и исследование модели нейросетевого метода анализа текстовых документовРабота выполнена в Санкт-Петербургском государственном университете телекоммуникаций им. проф. Научный руководитель: кандидат технических наук, профессор Макаров Леонид Михайлович Защита состоится «12» ноября 2009 года в ________ часов на заседании диссертационного совета Д 219.004.03 при Санкт-Петербургском государственном университете телекоммуникаций им. проф. С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского государственного университета телекоммуникаций им. проф.Предложен подход к оценке тематической близости документов с использованием метода сокращения пространства признаков, составляющих информационные образы, что позволило повысить качество и скорость выполнения анализа коллекции текстов. Разработана структура ИАС «NEUROTEXT», представляющая собой целостною интерактивную систему, состоящую из взаимосвязанных компонентов, позволяющих осуществлять построение онтологии коллекции документов. алгоритм информационный образ документ В рамках первого подхода в качестве основы принимается гипотеза о том, то эксперт, самостоятельно способен провести анализ коллекции документов и определить семантические линии каждого документа в коллекции, с целью установления их близости. В качестве веса терма значения wij в документе dj используется нормализованная частота употребления терма в данном документе, учитывающая актуальность терма по всей коллекции документов: где n - частота встречаемости терма i в тексте j, N - общее количество слов в тексте j, dti - число документов, в которых употребляется терм ti, D - общее число документов в массиве. В результате, каждый документ коллекции описывается набором параметров, характеризующих уникальность каждого документа в коллекции: где, tij - координата вектора i-ого документа в j-ом измерении пространства признаков, tij = 0, если j-ый признак не встречается в i-ом документе.Показана необходимость создания модели и методов, повышающих эффективность работы эксперта по знаниям с текстовыми документами. Разработан метод формирования - модельного позиционирования информационных образов документов, основанный на вычислении оценки тематической значимости признаков документов, включающий механизм сокращения признаков информационных образов документов, позволяющий повысить качество и скорость выполнения автоматического анализа документов. Установлено, что отношение близости документов в коллекции, обладающей значительным количеством информационных признаков, определяется с высокой точностью и, наоборот, в коллекции обладающей малым количеством информационных признаков, отношение близости устанавливается с высоким значением погрешности, но при этом происходит сокращении времени вычислительных процедур.

Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность
своей работы


Новые загруженные работы

Дисциплины научных работ





Хотите, перезвоним вам?