Отрывок: : Policy Gradient Algorithms) [6]. Центральной особенностью SAC является регуляризация энтропии. Политика настраивается так, чтобы максимизировать компромисс между ожидаемой доходностью и энтропией, характеризующей меру случайности в политике. Такой подход тесно связан с идеей поиска компромисса между разведкой и эксплуатацией [7], позволяет предотвратить преждевременную сходимость политики к плохому локальному оптимуму. 3. ЭКСПЕРИМЕНТЫ И РЕЗУЛЬТАТЫ ...
Полная запись метаданных
Поле DC Значение Язык
dc.contributor.authorКозлов Д. А.ru
dc.contributor.authorМясников В. В.ru
dc.coverage.spatialMDPru
dc.coverage.spatialUnity ML-Agentsru
dc.coverage.spatialSACru
dc.coverage.spatialPOMDPru
dc.coverage.spatialвиртуальная симуляцияru
dc.coverage.spatialробототехникаru
dc.coverage.spatialмашинное обучение с подкреплениемru
dc.coverage.spatialнаблюдения окружающей средыru
dc.creatorКозлов Д. А., Мясников В. В.ru
dc.date.issued2022ru
dc.identifierRU\НТБ СГАУ\491078ru
dc.identifier.citationКозлов, Д. А. Влияние состава наблюдений окружающей среды в задаче приобретения навыков передвижения в трехмерном пространстве при использовании алгоритмов обучения с подкреплением / Д. А. Козлов, В. В. Мясников // Информационные технологии и нанотехнологии (ИТНТ-2022) : сб. тр. по материалам VIII Междунар. конф. и молодеж. шк. (г. Самара, 23 - 27 мая) : в 5 т. / М-во науки и образования Рос. Федерации, Самар. нац. исслед. ун-т им. С. П. Королева (Самар. ун-т), Ин-т систем обраб. изобр. РАН - фил. ФНИЦ "Кристаллография и фотоника" РАН. - Самара : Изд-во Самар. ун-та, 2022Т. 4: Искусственный интеллект / под ред. А. В. Никонорова. - 2022. - С. 041502.ru
dc.description.abstractВ работе исследуется влияние состава наблюдений окружающей среды на процесс обучения «двуногого» мехатронного объекта навыкам передвижения в трёхмерном пространстве. Исследования проводятся всреде игрового движка Unity с использованием пакета ML-Agents. В качестве алгоритма обучения был выбран SoftActor Critic, как один из наиболее эффективных современных алгоритмов обучения с подкреплением (RL),показавший наибольшую эффективность на наборе аналогичных задач. Показано, что состав наблюденийможет радикально менять скорость обучения и даже замедлять процесс обучения при наличии «избыточных»данных.ru
dc.language.isorusru
dc.relation.ispartofИнформационные технологии и нанотехнологии (ИТНТ-2022) : сб. тр. по материалам VIII Междунар. конф. и молодеж. шк. (г. Самара, 23 - 27 мая) : в 5 т. -ru
dc.sourceИнформационные технологии и нанотехнологии (ИТНТ-2022). - Т. 4 : Искусственный интеллектru
dc.titleВлияние состава наблюдений окружающей среды в задаче приобретения навыков передвижения в трехмерном пространстве при использовании алгоритмов обучения с подкрепru
dc.typeTextru
dc.citation.spage041502ru
dc.citation.volume4ru
dc.textpart: Policy Gradient Algorithms) [6]. Центральной особенностью SAC является регуляризация энтропии. Политика настраивается так, чтобы максимизировать компромисс между ожидаемой доходностью и энтропией, характеризующей меру случайности в политике. Такой подход тесно связан с идеей поиска компромисса между разведкой и эксплуатацией [7], позволяет предотвратить преждевременную сходимость политики к плохому локальному оптимуму. 3. ЭКСПЕРИМЕНТЫ И РЕЗУЛЬТАТЫ ...-
Располагается в коллекциях: Информационные технологии и нанотехнологии




Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.