Проектирование сложных технологических объектов и процессов в различных предметных областях, осуществляемое с привлечением автоматизированных систем. Подходы к классификации проектной документации в системах управления документами и документооборотом.
Аннотация к работе
Для поддержания классификации документов в актуальном состоянии необходимо автоматизировать процедуру пополнения классификатора. При построении системы автоматической классификации документов по тематике требуется решить следующие задачи: · выбрать признаки, отражающие разбиение документов на требуемые классы; · имеется неизвестная функция , которая для каждой пары определяет, относится ли документ , имеющий признаковое описание , к категории ; В качестве признакового описания документов, отражающего их тематику, используется набор содержащихся в них слов - термов, каждому из которых по определенным правилам присвоен числовой коэффициент - вес [2]. Наиболее распространенный общий подход к вычислению веса терма реализует формула ( - term frequency, - inversed document frequency), где - частота встречаемости терма в данном документе, - величина, обратная частоте встречаемости терма в остальных документах.