Исследование возможности оптимизации каждого эксперта boosting-коллектива на основе построения и анализа "кривых" обучения – зависимостей ошибок обучения и обобщения от размеров обучающей выборки и свойств модели. Различия свойств для каждого эксперта.
При низкой оригинальности работы "Оптимизация экспертов boosting-коллектива по их кривым обучения", Вы можете повысить уникальность этой работы до 80-100%
Далее из оставшейся части исходной выборки формируется выборка для обучения второго эксперта (равная по размерам выборке, использованной при обучении первого), половина которой состоит из примеров, неправильно решенных первым экспертом, а половина ? из правильно решенных первым экспертом примеров. Т.о., для обучения второго эксперта повышается относительный вес примеров, трудных для решения первому эксперту, по сравнению с их распределением в генеральной совокупности, при требовании, что первый эксперт правильно распознает более 50% примеров выборки. Выборка для третьего эксперта формируется из тех не использованных при обучении первых двух экспертов примеров, касательно которых у этих двух экспертов существует противоречивое мнение. Идеализированные зависимости ошибок обучения и обобщения от размера обучающей выборки и от сложности модели, представленные на Рис.1-2, известны в теории машинного обучения под названием "learning curves" давно и считаются очевидными и общепринятыми ? в учебниках (например, в [8]), воспроизводящих идеализированных "кривые" обучения, ссылок на какой-либо из источников не приводится. Наиболее известная ?кривая обучения? получается при замене на Рис.2 оси сложности модели на ось числа эпох обучения нейросети, но является вторичной по отношению к кривым Рис.1-2, поскольку расхождение ошибок обучения и обобщения при длительном обучении нейросети возможно только при недостаточном объеме обучающей выборки или при избыточной информационной емкости модели. средняя ошибка размер выборкиОписанные эксперименты показывают четкое проявление асимптотических свойств "кривых" обучения, при этом даже на не слишком больших выборках (несколько тысяч примеров) отсутствует необходимость многократного обучения сети при оценивании каждой точки кривой: усреднения нескольких проб не требуется, результаты имеют достаточно малый разброс для того, чтобы тренд при визуальном наблюдении идентифицировался надежно. Свойство boosting-алгоритма, заключающееся в специфическом последовательном формировании обучающих выборок, может приводить к сильным статистическим отличиям таких выборок от генеральной совокупности (исходной большой выборки) и друг от друга ? это требует нахождения оптимальных настроек на каждом шаге boosting-алгоритма с целью максимизации как прогностических возможностей строящегося эксперта, так и всего boosting-коллектива. Один из возможных подходов к оптимизации прогностических способностей экспертов коллектива и самого коллектива в итоге, остающийся в базовых рамках пошаговой схемы роста коллектива и не требующий итеративной переоптимизации моделей и способа голосования, и исследован в работе.
Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность своей работы