Отрывок: Информационные технологии и анализ данных 451 Было уменьшено количество сверточных слоев в базовой нейронной сети [5], а затем постепенно увеличивалось. Исследование показало, что при увеличении количества сверточных слоев до определенного момента увеличивается награда, получаемая агентом за эпизод. На рисунке 3 представлены графики зависимости награды агента за эпизод от шага обучения, при этом график красного цвета показывает зависимость при 3 сверточных слоя...
Название : | Использование алгоритма PPO для обучения с подкреплением в средах с дискретным и непрерывным пространством действий |
Авторы/Редакторы : | Баранов И. С. Савельев Д. А. |
Дата публикации : | 2021 |
Библиографическое описание : | Баранов, И. С. Использование алгоритма PPO для обучения с подкреплением в средах с дискретным и непрерывным пространством действий / И. С. Баранов, Д. А. Савельев // XVI Королевские чтения : междунар. молодеж. науч. конф., посвящ. 60-летию полета в космос Ю. А. Гагарина : сб. материалов : 5-7 окт. 2021 г. : в 3 т. / М-во науки и высш. образования Рос. Федерации, Самар. нац. исслед. ун-т им. С. П. Королева (Самар. ун-т) ; [науч. ред. М. А. Шлеенков]. - 2021. - Т. 1. - С. 450-451 |
Другие идентификаторы : | RU\НТБ СГАУ\471605 |
Ключевые слова: | базовая нейронная сеть алгоритмы РРО игровые среды обучение с подкреплением обучение тестирующего агента обучение в визуальной среде тестирование игр сверточная нейронная сеть |
Располагается в коллекциях: | Королевские чтения |
Файлы этого ресурса:
Файл | Размер | Формат | |
---|---|---|---|
978-5-7883-1668-0_2021-450-451.pdf | 681.75 kB | Adobe PDF | Просмотреть/Открыть |
Показать полное описание ресурса
Просмотр статистики
Поделиться:
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.