Метод визуального анализа лица водителя для автоматического чтения речи по губам при управлении транспортным средством

Карпов, А.А.; Рюмин, Д.А.; Иванько, Д.В.; Кашевник, А.М.; Аксёнов, А.А.

Отрывок: Рис. 5. Зависимость скорости обучения модели от количества эпох Изначально максимальное количество эпох было предложено установить равным 100, а в случае, если на протяжении пяти эпох точность перестает расти, то обучение прерывается и фиксируется лучший ре- зультат, полученный за все время обучения. Рис. 5 показывает, что скорость обучения постепенно сни- жается с 0,001 до 0,0001 на протяжении 10 эпох, за- тем резко в...

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.author	Аксёнов, А.А.	-
dc.contributor.author	Рюмин, Д.А.	-
dc.contributor.author	Кашевник, А.М.	-
dc.contributor.author	Иванько, Д.В.	-
dc.contributor.author	Карпов, А.А.	-
dc.date.accessioned	2023-12-29 12:59:43	-
dc.date.available	2023-12-29 12:59:43	-
dc.date.issued	2022-12	-
dc.identifier	Dspace\SGAU\20231227\107752	ru
dc.identifier.citation	Аксёнов, А.А. Метод визуального анализа лица водителя для автоматического чтения речи по губам при управлении транспортным средством / А.А. Аксёнов, Д.А. Рюмин, А.М. Кашевник, Д.В. Иванько, А.А. Карпов // Компьютерная оптика. – 2022. – Т. 46, № 6. – С. 955-962. – DOI: 10.18287/2412-6179-CO-1092.	ru
dc.identifier.uri	https://dx.doi.org/10.18287/2412-6179-CO-1092	-
dc.identifier.uri	http://repo.ssau.ru/handle/Zhurnal-Komputernaya-optika/Metod-vizualnogo-analiza-lica-voditelya-dlya-avtomaticheskogo-chteniya-rechi-po-gubam-pri-upravlenii-transportnym-sredstvom-107752	-
dc.description.abstract	В работе предложен метод визуального анализа и чтения речи по губам водителя при управлении транспортным средством. Автоматическое распознавание речи в акустически неблагоприятных динамических условиях является одной из актуальных задач искусственного интеллекта. Проблема эффективного автоматического чтения по губам во время дорожного движения на данный момент не решена из-за наличия различного рода помех (частые повороты головы, вибрация, динамическое освещение и т.п.). Кроме того, проблема усложняется отсутствием представительных баз данных визуальной речи. Для поиска и извлечения области интереса используется программная библиотека MediaPipe Face Mesh. Для анализа визуальной речи разработана интегральная нейросетевая архитектура (End-to-End). Визуальные признаки извлекаются из отдельного изображения с помощью свёрточной нейронной сети в связке с полносвязным слоем. Извлеченные нейросетевые признаки изображений являются входными данными для нейросети с длинной кратковременной памятью. В связи с небольшим объемом обучающих данных было предложено применять метод переноса обучения. Результаты по анализу и распознаванию визуальной речи водителя в процессе управления автомобилем представляют большие возможности для решения актуальной задачи автоматического чтения по губам. Экспериментальные исследования выполнены на собственном аудиовизуальном корпусе русской речи RUSAVIC, собранном в реальных условиях дорожного движения. Максимальная точность визуального распознавания 62 голосовых управляющих команд водителей составила 64,09 %. Полученные результаты могут быть использованы в системах аудиовизуального распознавания речи, применяемых в акустически сложной обстановке дорожного движения (высокая скорость движения, открытые окна или люк в автомобиле, одновременное проигрывание музыки, слабая шумоизоляция и т.п.).	ru
dc.description.sponsorship	Работа выполнена при поддержке проекта фонда РФФИ № 19-29-09081-мк, ведущей научной школы НШ-17.2022.1.6, а также частично в рамках бюджетной темы № FFZF-2022-0005.	ru
dc.language.iso	rus	ru
dc.publisher	Самарский национальный исследовательский университет	ru
dc.relation.ispartofseries	46;6	-
dc.subject	транспортное средство	ru
dc.subject	водитель	ru
dc.subject	визуальное распознавание речи	ru
dc.subject	автоматическое чтение по губам	ru
dc.subject	машинное обучение	ru
dc.subject	End-to-End	ru
dc.subject	CNN	ru
dc.subject	LSTM	ru
dc.title	Метод визуального анализа лица водителя для автоматического чтения речи по губам при управлении транспортным средством	ru
dc.title.alternative	Method for visual analysis of driver's face for automatic lip-reading in the wild	ru
dc.type	Article	ru
dc.textpart	Рис. 5. Зависимость скорости обучения модели от количества эпох Изначально максимальное количество эпох было предложено установить равным 100, а в случае, если на протяжении пяти эпох точность перестает расти, то обучение прерывается и фиксируется лучший ре- зультат, полученный за все время обучения. Рис. 5 показывает, что скорость обучения постепенно сни- жается с 0,001 до 0,0001 на протяжении 10 эпох, за- тем резко в...	-
dc.classindex.scsti	28.23.15	-
Располагается в коллекциях:	Журнал "Компьютерная оптика"

Файлы этого ресурса:

Файл	Описание	Размер	Формат
2412-6179_2022_46_6_955-962.pdf		13.11 MB	Adobe PDF	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики
Поделиться:

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Репозиторий Самарского университета