Популярность алгоритмов машинного обучения для компьютерных игр. Основные техники обучения с подкреплением в динамической среде (компьютерная игра "Snake") с экспериментальным сравнением алгоритмов. Обучение с подкреплением как тип обучения без учителя.
Теоретическая часть Описание игры Snake Q-Learning SARSA (State-Action-Reward-State-Action) Аппроксимация Q значения с помощью нейронной сети Постановка задачи Описание Экспериментов Заключение Список литературы Введение В наши дни машинное обучение набирает огромную популярность. Многие известные корпорации такие как Google и Microsoft тестируют и улучшают свои модели ИИ на компьютерных играх. В качестве динамической среды, выступает компьютерная игра Snake, в которой игроку, управляя змейкой, необходимо собрать как можно больше яблок, избегая препятствий (в качестве препятствия выступает и само тело змейки): Для создания ИИ используется обучение с подкреплением. Для обучения агентов, которые ничего не знают о среде, существует два наиболее популярных алгоритма Q-learning и SARSA [1], которые успешно применялись для компьютерной игры Mario [2], где для обучения агента авторы ограничили область видимости, чтобы уменьшить количество данных среды.
Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность своей работы