Выявление паттернов в последовательностях категориальных данных для непрерывного производства. Необходимость разработки подходов для анализа больших объемов данных. Главные методы распределенной обработки, позволяющие проводить анализ данных в потоке.
Аннотация к работе
Распределенный анализ категориальных последовательностей для непрерывного производстваРасположение таких элементов в последовательности строго определено в зависимости от логического порядка их следования (категориальные последовательности) или от времени их появления (временные ряды). На сегодняшний день анализ последовательностей данных широко применяется во многих областях - медицине, биологии, производстве, однако существующие на данным момент подходы используют алгоритмы, работа которых существенно зависит от размерности входных данных. Исследование литературы по вопросам выявления паттернов в категориальных последовательностях показало, что наиболее популярными методами являются подходы, разработанные группой исследователей IBM Research [2, 3], которые представили алгоритмы APRIORISOME, APRIORIALL, DYNAMICSOME и SPADE. Сравнение масштабируемости этих алгоритмах на редуцированном наборе данных, включающем в себя 40000 последовательностей, представлены на рисунках 1, 2. На рисунке 1 изображены графики зависимоссти времени выполнения алгоритма от значения параметра минимальной поддержки, характеризующего процент различия между последовательностью данных и входящей в нее подпоследовательностью.