Сравнение алгоритмов обучения с подкреплением в задаче приобретения навыков передвижения в трехмерном пространстве

Козлов Д. А.

Отрывок: Сочетая хаотичность со стабильной структурой подхода «actor-critic», метод достигает наилучшей производительности в ряде задач непрерывного управления. Кроме того, в отличие от других off-policy алгоритмов, метод очень стабилен, то есть достигает при разных случайных начальных значениях примерно одинаковой эффективности решения. Б. Алгоритм Proximal Policy Optimization Proximal Policy Optimization (PPO)[4] - семейство RL- методов градиента политики, которые...

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.author	Козлов Д. А.	ru
dc.coverage.spatial	алгоритмы обучения	ru
dc.coverage.spatial	виртуальная симуляция	ru
dc.coverage.spatial	POMDP	ru
dc.coverage.spatial	PPO	ru
dc.coverage.spatial	SAC	ru
dc.coverage.spatial	Unity ML-Agents	ru
dc.coverage.spatial	MA-POCA	ru
dc.coverage.spatial	MDP	ru
dc.coverage.spatial	робототехника	ru
dc.coverage.spatial	среда симуляции	ru
dc.coverage.spatial	обучение с подкреплением	ru
dc.coverage.spatial	машинное обучение	ru
dc.creator	Козлов Д. А.	ru
dc.date.issued	2022	ru
dc.identifier	RU\НТБ СГАУ\491077	ru
dc.identifier.citation	Козлов, Д. А. Сравнение алгоритмов обучения с подкреплением в задаче приобретения навыков передвижения в трехмерном пространстве / Д. А. Козлов // Информационные технологии и нанотехнологии (ИТНТ-2022) : сб. тр. по материалам VIII Междунар. конф. и молодеж. шк. (г. Самара, 23 - 27 мая) : в 5 т. / М-во науки и образования Рос. Федерации, Самар. нац. исслед. ун-т им. С. П. Королева (Самар. ун-т), Ин-т систем обраб. изобр. РАН - фил. ФНИЦ "Кристаллография и фотоника" РАН. - Самара : Изд-во Самар. ун-та, 2022Т. 4: Искусственный интеллект / под ред. А. В. Никонорова. - 2022. - С. 041482.	ru
dc.description.abstract	В работе выполняется сравнение современных методов обучения с подкреплением на примере решения задачи приобретения агентом навыков передвижения в трёхмерном пространстве. Сравнение производится в симуляторе Unity с использованием пакета ml-agents. В качестве сравниваемых алгоритмов выступают: SAC, PPO, MA-POCA. Они используются для обучения навыкам передвижения нескольких моделей агентов: 3DBall, Crawler, Walker и авторскойSimplestBipedal. Результаты экспериментов говорят о преимуществах алгоритма Soft Actor Critic, что делает егоболее перспективным для использования в реальных средах.	ru
dc.language.iso	rus	ru
dc.relation.ispartof	Информационные технологии и нанотехнологии (ИТНТ-2022) : сб. тр. по материалам VIII Междунар. конф. и молодеж. шк. (г. Самара, 23 - 27 мая) : в 5 т. -	ru
dc.source	Информационные технологии и нанотехнологии (ИТНТ-2022). - Т. 4 : Искусственный интеллект	ru
dc.title	Сравнение алгоритмов обучения с подкреплением в задаче приобретения навыков передвижения в трехмерном пространстве	ru
dc.type	Text	ru
dc.citation.spage	041482	ru
dc.citation.volume	4	ru
dc.textpart	Сочетая хаотичность со стабильной структурой подхода «actor-critic», метод достигает наилучшей производительности в ряде задач непрерывного управления. Кроме того, в отличие от других off-policy алгоритмов, метод очень стабилен, то есть достигает при разных случайных начальных значениях примерно одинаковой эффективности решения. Б. Алгоритм Proximal Policy Optimization Proximal Policy Optimization (PPO)[4] - семейство RL- методов градиента политики, которые...	-
Располагается в коллекциях:	Информационные технологии и нанотехнологии

Файлы этого ресурса:

Файл	Размер	Формат
ИТНТ-2022. Том 4. Искусственный интеллект/978-5-7883-1792-2_2022-041482.pdf	919 kB	Adobe PDF	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики
Поделиться:

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Репозиторий Самарского университета