Отрывок: Информационные технологии и анализ данных 451 Было уменьшено количество сверточных слоев в базовой нейронной сети [5], а затем постепенно увеличивалось. Исследование показало, что при увеличении количества сверточных слоев до определенного момента увеличивается награда, получаемая агентом за эпизод. На рисунке 3 представлены графики зависимости награды агента за эпизод от шага обучения, при этом график красного цвета показывает зависимость при 3 сверточных слоя...
Название : Использование алгоритма PPO для обучения с подкреплением в средах с дискретным и непрерывным пространством действий
Авторы/Редакторы : Баранов И. С.
Савельев Д. А.
Дата публикации : 2021
Библиографическое описание : Баранов, И. С. Использование алгоритма PPO для обучения с подкреплением в средах с дискретным и непрерывным пространством действий / И. С. Баранов, Д. А. Савельев // XVI Королевские чтения : междунар. молодеж. науч. конф., посвящ. 60-летию полета в космос Ю. А. Гагарина : сб. материалов : 5-7 окт. 2021 г. : в 3 т. / М-во науки и высш. образования Рос. Федерации, Самар. нац. исслед. ун-т им. С. П. Королева (Самар. ун-т) ; [науч. ред. М. А. Шлеенков]. - 2021. - Т. 1. - С. 450-451
Другие идентификаторы : RU\НТБ СГАУ\471605
Ключевые слова: базовая нейронная сеть
алгоритмы РРО
игровые среды
обучение с подкреплением
обучение тестирующего агента
обучение в визуальной среде
тестирование игр
сверточная нейронная сеть
Располагается в коллекциях: Королевские чтения

Файлы этого ресурса:
Файл Размер Формат  
978-5-7883-1668-0_2021-450-451.pdf681.75 kBAdobe PDFПросмотреть/Открыть



Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.