Отрывок: Рис. 5. Зависимость скорости обучения модели от количества эпох Изначально максимальное количество эпох было предложено установить равным 100, а в случае, если на протяжении пяти эпох точность перестает расти, то обучение прерывается и фиксируется лучший ре- зультат, полученный за все время обучения. Рис. 5 показывает, что скорость обучения постепенно сни- жается с 0,001 до 0,0001 на протяжении 10 эпох, за- тем резко в...
Полная запись метаданных
Поле DC | Значение | Язык |
---|---|---|
dc.contributor.author | Аксёнов, А.А. | - |
dc.contributor.author | Рюмин, Д.А. | - |
dc.contributor.author | Кашевник, А.М. | - |
dc.contributor.author | Иванько, Д.В. | - |
dc.contributor.author | Карпов, А.А. | - |
dc.date.accessioned | 2023-12-29 12:59:43 | - |
dc.date.available | 2023-12-29 12:59:43 | - |
dc.date.issued | 2022-12 | - |
dc.identifier | Dspace\SGAU\20231227\107752 | ru |
dc.identifier.citation | Аксёнов, А.А. Метод визуального анализа лица водителя для автоматического чтения речи по губам при управлении транспортным средством / А.А. Аксёнов, Д.А. Рюмин, А.М. Кашевник, Д.В. Иванько, А.А. Карпов // Компьютерная оптика. – 2022. – Т. 46, № 6. – С. 955-962. – DOI: 10.18287/2412-6179-CO-1092. | ru |
dc.identifier.uri | https://dx.doi.org/10.18287/2412-6179-CO-1092 | - |
dc.identifier.uri | http://repo.ssau.ru/handle/Zhurnal-Komputernaya-optika/Metod-vizualnogo-analiza-lica-voditelya-dlya-avtomaticheskogo-chteniya-rechi-po-gubam-pri-upravlenii-transportnym-sredstvom-107752 | - |
dc.description.abstract | В работе предложен метод визуального анализа и чтения речи по губам водителя при управлении транспортным средством. Автоматическое распознавание речи в акустически неблагоприятных динамических условиях является одной из актуальных задач искусственного интеллекта. Проблема эффективного автоматического чтения по губам во время дорожного движения на данный момент не решена из-за наличия различного рода помех (частые повороты головы, вибрация, динамическое освещение и т.п.). Кроме того, проблема усложняется отсутствием представительных баз данных визуальной речи. Для поиска и извлечения области интереса используется программная библиотека MediaPipe Face Mesh. Для анализа визуальной речи разработана интегральная нейросетевая архитектура (End-to-End). Визуальные признаки извлекаются из отдельного изображения с помощью свёрточной нейронной сети в связке с полносвязным слоем. Извлеченные нейросетевые признаки изображений являются входными данными для нейросети с длинной кратковременной памятью. В связи с небольшим объемом обучающих данных было предложено применять метод переноса обучения. Результаты по анализу и распознаванию визуальной речи водителя в процессе управления автомобилем представляют большие возможности для решения актуальной задачи автоматического чтения по губам. Экспериментальные исследования выполнены на собственном аудиовизуальном корпусе русской речи RUSAVIC, собранном в реальных условиях дорожного движения. Максимальная точность визуального распознавания 62 голосовых управляющих команд водителей составила 64,09 %. Полученные результаты могут быть использованы в системах аудиовизуального распознавания речи, применяемых в акустически сложной обстановке дорожного движения (высокая скорость движения, открытые окна или люк в автомобиле, одновременное проигрывание музыки, слабая шумоизоляция и т.п.). | ru |
dc.description.sponsorship | Работа выполнена при поддержке проекта фонда РФФИ № 19-29-09081-мк, ведущей научной школы НШ-17.2022.1.6, а также частично в рамках бюджетной темы № FFZF-2022-0005. | ru |
dc.language.iso | rus | ru |
dc.publisher | Самарский национальный исследовательский университет | ru |
dc.relation.ispartofseries | 46;6 | - |
dc.subject | транспортное средство | ru |
dc.subject | водитель | ru |
dc.subject | визуальное распознавание речи | ru |
dc.subject | автоматическое чтение по губам | ru |
dc.subject | машинное обучение | ru |
dc.subject | End-to-End | ru |
dc.subject | CNN | ru |
dc.subject | LSTM | ru |
dc.title | Метод визуального анализа лица водителя для автоматического чтения речи по губам при управлении транспортным средством | ru |
dc.title.alternative | Method for visual analysis of driver's face for automatic lip-reading in the wild | ru |
dc.type | Article | ru |
dc.textpart | Рис. 5. Зависимость скорости обучения модели от количества эпох Изначально максимальное количество эпох было предложено установить равным 100, а в случае, если на протяжении пяти эпох точность перестает расти, то обучение прерывается и фиксируется лучший ре- зультат, полученный за все время обучения. Рис. 5 показывает, что скорость обучения постепенно сни- жается с 0,001 до 0,0001 на протяжении 10 эпох, за- тем резко в... | - |
dc.classindex.scsti | 28.23.15 | - |
Располагается в коллекциях: | Журнал "Компьютерная оптика" |
Файлы этого ресурса:
Файл | Описание | Размер | Формат | |
---|---|---|---|---|
2412-6179_2022_46_6_955-962.pdf | 13.11 MB | Adobe PDF | Просмотреть/Открыть |
Показать базовое описание ресурса
Просмотр статистики
Поделиться:
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.