Отрывок: Сочетая хаотичность со стабильной структурой подхода «actor-critic», метод достигает наилучшей производительности в ряде задач непрерывного управления. Кроме того, в отличие от других off-policy алгоритмов, метод очень стабилен, то есть достигает при разных случайных начальных значениях примерно одинаковой эффективности решения. Б. Алгоритм Proximal Policy Optimization Proximal Policy Optimization (PPO)[4] - семейство RL- методов градиента политики, которые...
Полная запись метаданных
Поле DC Значение Язык
dc.contributor.authorКозлов Д. А.ru
dc.coverage.spatialалгоритмы обученияru
dc.coverage.spatialвиртуальная симуляцияru
dc.coverage.spatialPOMDPru
dc.coverage.spatialPPOru
dc.coverage.spatialSACru
dc.coverage.spatialUnity ML-Agentsru
dc.coverage.spatialMA-POCAru
dc.coverage.spatialMDPru
dc.coverage.spatialробототехникаru
dc.coverage.spatialсреда симуляцииru
dc.coverage.spatialобучение с подкреплениемru
dc.coverage.spatialмашинное обучениеru
dc.creatorКозлов Д. А.ru
dc.date.issued2022ru
dc.identifierRU\НТБ СГАУ\491077ru
dc.identifier.citationКозлов, Д. А. Сравнение алгоритмов обучения с подкреплением в задаче приобретения навыков передвижения в трехмерном пространстве / Д. А. Козлов // Информационные технологии и нанотехнологии (ИТНТ-2022) : сб. тр. по материалам VIII Междунар. конф. и молодеж. шк. (г. Самара, 23 - 27 мая) : в 5 т. / М-во науки и образования Рос. Федерации, Самар. нац. исслед. ун-т им. С. П. Королева (Самар. ун-т), Ин-т систем обраб. изобр. РАН - фил. ФНИЦ "Кристаллография и фотоника" РАН. - Самара : Изд-во Самар. ун-та, 2022Т. 4: Искусственный интеллект / под ред. А. В. Никонорова. - 2022. - С. 041482.ru
dc.description.abstractВ работе выполняется сравнение современных методов обучения с подкреплением на примере решения задачи приобретения агентом навыков передвижения в трёхмерном пространстве. Сравнение производится в симуляторе Unity с использованием пакета ml-agents. В качестве сравниваемых алгоритмов выступают: SAC, PPO, MA-POCA. Они используются для обучения навыкам передвижения нескольких моделей агентов: 3DBall, Crawler, Walker и авторскойSimplestBipedal. Результаты экспериментов говорят о преимуществах алгоритма Soft Actor Critic, что делает егоболее перспективным для использования в реальных средах.ru
dc.language.isorusru
dc.relation.ispartofИнформационные технологии и нанотехнологии (ИТНТ-2022) : сб. тр. по материалам VIII Междунар. конф. и молодеж. шк. (г. Самара, 23 - 27 мая) : в 5 т. -ru
dc.sourceИнформационные технологии и нанотехнологии (ИТНТ-2022). - Т. 4 : Искусственный интеллектru
dc.titleСравнение алгоритмов обучения с подкреплением в задаче приобретения навыков передвижения в трехмерном пространствеru
dc.typeTextru
dc.citation.spage041482ru
dc.citation.volume4ru
dc.textpartСочетая хаотичность со стабильной структурой подхода «actor-critic», метод достигает наилучшей производительности в ряде задач непрерывного управления. Кроме того, в отличие от других off-policy алгоритмов, метод очень стабилен, то есть достигает при разных случайных начальных значениях примерно одинаковой эффективности решения. Б. Алгоритм Proximal Policy Optimization Proximal Policy Optimization (PPO)[4] - семейство RL- методов градиента политики, которые...-
Располагается в коллекциях: Информационные технологии и нанотехнологии




Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.