Разработка программного продукта для решения задач бикластерного анализа англоязычных текстов - Дипломная работа

бесплатно 0
4.5 177
Иерархическая кластеризация информации в виде ключевых словосочетаний - традиционный подход к автоматическому построению таксономии. Характеристика основных подходов к решению задач, необходимых для проведения бикластерного анализа текстовых данных.


Аннотация к работе
Диллон предложил идею параллельной кластеризации (бикластеризации) ключевых слов и текстов на основе матрицы релевантности слово/текст. Его метод был основан на идее нахождения минимального разреза в двудольном графе (графе связей между словами и текстами) и позволял получать тесно-связанные кластеры слов и документов. Сами матрицы релевантности могут представляться в бинарном виде (единица, если слово содержится в документе), но чаще исследователи пользуются метриками релевантности, которые учитывают частоту встречаемости слова как в самом документе, так и во всей коллекции: например, метрика TF-IDF или получившая широкое распространение в последнее время метрика Okapi BM25. Таким образом для слов строятся вектора релевантности, аналогичные векторам релевантности для текстов, и схожесть между словами определяется на основе таких векторов. Также нужно отметить, что применение алгоритмов бикластеризации в области обработки текстов в основном касается только матриц/графов связей между словами и документами, но при этом не уделяется внимание бикластерам ключевых фраз, что лишь подтверждает актуальность разработки ПО для бикластерного анализа текстов.Данное программное обеспечение позволяет осуществлять бикластеризацию матриц релевантности фраза/текст и матриц схожести между фразами. В дополнение, мы представили новый жадный алгоритм бикластеризации и сравнили его с другими существующими методами - алгоритмом BBOX и алгоритмом спектрального разложения двудольного графа. Созданный инструмент может позволить пользователям определять внутреннюю структуру коллекции документов, а также находить тематические блоки внутри этой коллекции. Сама программа, будучи специализированной для анализа именно текстовых данных, предоставляет методы загрузки аннотаций к научным статьям от известных издательств (IEEE, Springer), что избавляет пользователя от необходимости самостоятельно подбирать коллекции тестов для анализа. Также программа предоставляет методы выделения ключевых слов и словосочетаний из коллекции текстов, что является важным предварительным шагом при работе с текстовыми данными.
Заказать написание новой работы



Дисциплины научных работ



Хотите, перезвоним вам?