Анализ структурно-функционального решения интеллектуального хранилища. Индексирование документов как важная операция, обеспечивающая возможности информационного поиска. Особенность адаптации стандартного генетического алгоритма к задаче кластеризации.
Аннотация к работе
В данной статье предложен метод решения задачи кластеризации информационных ресурсов, основанный на генетическом алгоритме. Современный проектный репозитарий представляет собой интеллектуальное хранилище информационных ресурсов, обеспечивающий поиск необходимого ресурса на основе гибкого запроса [Ярушкина, 2004]. Текст аннотации (или текст самого ресурса) однозначно отражает смысловое содержание данного ресурса. Для оценки значимости слов в индексаторе используется методы определения частот слов каждого документа и частот, рассчитанных по формуле Шеннона (сигнал-шум): , где - шум термина, , где - частота-го термина в-м документе, - частота-го термина по всем документам, - сигнал термина Соответственно, если стоит задача разбить информационные ресурсы на N кластеров, то значения номера кластера варьируются от 1 до N.
Список литературы
1. [Батыршин и др., 2007] Батыршин И. З., Недосекин А. О., Стецко А. А., Тарасов В. Б., Язенин А. В.,Ярушкина Н. Г. Нечеткие гибридные системы. Теория и практика // Под ред. Н. Г. Ярушкиной. - М.: ФИЗМАТЛИТ, 2007.
2. [Наместников и др., 2007] Наместников А.М., Чекина А.В., Корунова Н.В. Интеллектуальный сетевой архив электронных информационных ресурсов // Программные продукты и системы, №4, 2007.
3. [Ярушкина, 2004] Ярушкина Н. Г. Основы теории нечетких и гибридных систем.- М.: Финансы и статистика, 2004.