Разработка архитектуры интегрированной системы интеллектуального анализа гибридных данных. Исследование возможных путей учёта числовых характеристик в рамках логико-комбинаторного анализа. Рассмотрение числовых характеристик химических соединений.
Аннотация к работе
Всероссийский институт научной и технической информации РАН Автореферат диссертации на соискание ученой степени кандидата технических наук Работа выполнена во Всероссийском институте научной и технической информации РАН Защита состоится 2006 г. на заседании диссертационного совета Д 002.026.01 при Всероссийском институте научной и технической информации РАН по адресу: 125190, Москва, ул. С диссертацией можно ознакомиться в библиотеке Всероссийского института научной и технической информации РАН.Компьютерные системы анализа контрпродуктивных свойств химических соединений, предоставляющие прогноз этих свойств, позволили бы значительно сократить время и стоимость таких исследований. Особое место среди этих систем занимают системы интеллектуального анализа данных (ИАД), характеризующиеся способностью использовать существующие знания и приводить обоснование сделанного прогноза. Такие интегрированные методы позволяют учитывать в анализе как структурные, так и числовые характеристики изучаемых объектов (т.е. проводить анализ гибридных данных), а также подкрепить сравнительно молодой, но чрезвычайно перспективный аппарат формального логического анализа многолетним опытом разработок в области статистического анализа. При этом числовые характеристики и числовые модели, отражающие «физику» изучаемых явлений и процессов (как, например, энергия активации в задаче «структура химического соединения - проявляемая активность») могут являться важным элементом настройки интеллектуальной системы анализа на конкретную предметную область. Разработанная интеллектуальная система позволяет обогащать имеющиеся данные о контрпродуктивных свойствах химических соединений числовыми характеристиками этих соединений (которые вычисляются автоматически или предоставляются экспертом), а затем проводить анализ с целью выявления причин наличия таких свойств и прогнозирования.И, наконец, возможен вариант (как, например, в CN2 [13]) порождения гипотез не на базе конкретных примеров, а на основе предопределенной их структуры (например, каждый объект описывается кортежем 4х атрибутов с заданным доменом для каждого из атрибутов) - в этом случае примеры служат исключительно для проверки критерия отбора гипотез, например, статистической значимости. Указывается также, что система, в которой можно переопределить лишь операцию нахождения сходства (т.е. сходство 2-х объектов), не позволяет использовать статистические методы в полной мере и, таким образом, не вполне отвечает поставленной задаче совместного использования логико-комбинаторных и статистических методов в анализе данных. Отношение вложимости на множестве объектов обобщается до соответствия вложимости сходства в объект I(c, s) такого, что выполняются следующие условия: (5) , т.е. сходство всегда вложимо в породившие его объекты; Система позволяет, во-первых, использовать многокомпонентные описания объектов и сходств и, во-вторых, иметь независимые описания для объектов и для сходств. Все это возможно, конечно, при условии, что операции нахождения сходства, предикат вхождения сходства в объект и критерий «пустоты» сходства (реализованные во вспомогательных алгоритмах) определены корректно.