Использование алгоритма PPO для обучения с подкреплением в средах с дискретным и непрерывным пространством действий

Баранов И. С.; Савельев Д. А.

Отрывок: Информационные технологии и анализ данных 451 Было уменьшено количество сверточных слоев в базовой нейронной сети [5], а затем постепенно увеличивалось. Исследование показало, что при увеличении количества сверточных слоев до определенного момента увеличивается награда, получаемая агентом за эпизод. На рисунке 3 представлены графики зависимости награды агента за эпизод от шага обучения, при этом график красного цвета показывает зависимость при 3 сверточных слоя...

Название :	Использование алгоритма PPO для обучения с подкреплением в средах с дискретным и непрерывным пространством действий
Авторы/Редакторы :	Баранов И. С. Савельев Д. А.
Дата публикации :	2021
Библиографическое описание :	Баранов, И. С. Использование алгоритма PPO для обучения с подкреплением в средах с дискретным и непрерывным пространством действий / И. С. Баранов, Д. А. Савельев // XVI Королевские чтения : междунар. молодеж. науч. конф., посвящ. 60-летию полета в космос Ю. А. Гагарина : сб. материалов : 5-7 окт. 2021 г. : в 3 т. / М-во науки и высш. образования Рос. Федерации, Самар. нац. исслед. ун-т им. С. П. Королева (Самар. ун-т) ; [науч. ред. М. А. Шлеенков]. - 2021. - Т. 1. - С. 450-451
Другие идентификаторы :	RU\НТБ СГАУ\471605
Ключевые слова:	базовая нейронная сеть алгоритмы РРО игровые среды обучение с подкреплением обучение тестирующего агента обучение в визуальной среде тестирование игр сверточная нейронная сеть
Располагается в коллекциях:	Королевские чтения

Файлы этого ресурса:

Файл	Размер	Формат
978-5-7883-1668-0_2021-450-451.pdf	681.75 kB	Adobe PDF	Просмотреть/Открыть

Показать полное описание ресурса Просмотр статистики
Поделиться:

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Репозиторий Самарского университета