Иерархическая кластеризация информации в виде ключевых словосочетаний - традиционный подход к автоматическому построению таксономии. Характеристика основных подходов к решению задач, необходимых для проведения бикластерного анализа текстовых данных.
При низкой оригинальности работы "Разработка программного продукта для решения задач бикластерного анализа англоязычных текстов", Вы можете повысить уникальность этой работы до 80-100%
Диллон предложил идею параллельной кластеризации (бикластеризации) ключевых слов и текстов на основе матрицы релевантности слово/текст. Его метод был основан на идее нахождения минимального разреза в двудольном графе (графе связей между словами и текстами) и позволял получать тесно-связанные кластеры слов и документов. Сами матрицы релевантности могут представляться в бинарном виде (единица, если слово содержится в документе), но чаще исследователи пользуются метриками релевантности, которые учитывают частоту встречаемости слова как в самом документе, так и во всей коллекции: например, метрика TF-IDF или получившая широкое распространение в последнее время метрика Okapi BM25. Таким образом для слов строятся вектора релевантности, аналогичные векторам релевантности для текстов, и схожесть между словами определяется на основе таких векторов. Также нужно отметить, что применение алгоритмов бикластеризации в области обработки текстов в основном касается только матриц/графов связей между словами и документами, но при этом не уделяется внимание бикластерам ключевых фраз, что лишь подтверждает актуальность разработки ПО для бикластерного анализа текстов.Данное программное обеспечение позволяет осуществлять бикластеризацию матриц релевантности фраза/текст и матриц схожести между фразами. В дополнение, мы представили новый жадный алгоритм бикластеризации и сравнили его с другими существующими методами - алгоритмом BBOX и алгоритмом спектрального разложения двудольного графа. Созданный инструмент может позволить пользователям определять внутреннюю структуру коллекции документов, а также находить тематические блоки внутри этой коллекции. Сама программа, будучи специализированной для анализа именно текстовых данных, предоставляет методы загрузки аннотаций к научным статьям от известных издательств (IEEE, Springer), что избавляет пользователя от необходимости самостоятельно подбирать коллекции тестов для анализа. Также программа предоставляет методы выделения ключевых слов и словосочетаний из коллекции текстов, что является важным предварительным шагом при работе с текстовыми данными.
Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность своей работы