Автоматическая верификация диктора по произвольной фразе с применением свёрточных глубоких сетей доверия

Костюченко, Е.Ю.; Шелупанов, А.А.; Рахманенко, И.А.

Отрывок: В данном корпусе содержатся аудиозаписи носителей восьми основных диалектов американского английского языка, для каждого из ко- торых имеется по десять фонетически разнообразных, отражающих диалект или фонетически компактных фраз, часть из которых одинаковы для всех дикторов, часть отличается друг от друга. Всего в корпусе име- ются аудиозаписи 438 дикторов-мужчин и 192 дикто- ров-женщин. Рис. 2. Кривые компромиссного определения ошибки (DET кривые), полученные при исследовани...

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.author	Рахманенко, И.А.	-
dc.contributor.author	Шелупанов, А.А.	-
dc.contributor.author	Костюченко, Е.Ю.	-
dc.date.accessioned	2020-10-27 09:59:30	-
dc.date.available	2020-10-27 09:59:30	-
dc.date.issued	2020-08	-
dc.identifier	Dspace\SGAU\20200913\85564	ru
dc.identifier.citation	Рахманенко, И.А. Автоматическая верификация диктора по произвольной фразе с применением свёрточных глубоких сетей доверия / И.А. Рахманенко, А.А. Шелупанов, Е.Ю. Костюченко // Компьютерная оптика. – 2020. – Т. 44, № 4. – С. 596-605. – DOI: 10.18287/2412-6179-CO-621.	ru
dc.identifier.uri	https://dx.doi.org/10.18287/2412-6179-CO-621	-
dc.identifier.uri	http://repo.ssau.ru/handle/Zhurnal-Komputernaya-optika/Avtomaticheskaya-verifikaciya-diktora-po-proizvolnoi-fraze-s-primeneniem-svertochnyh-glubokih-setei-doveriya-85564	-
dc.description.abstract	Данная статья посвящена применению свёрточных глубоких сетей доверия в качестве средства извлечения речевых признаков из аудиозаписей для решения задачи автоматической, текстонезависимой верификации диктора. В работе описаны область применения и проблемы систем автоматической верификации диктора. Рассмотрены типы современных систем верификации диктора, основные типы речевых признаков, используемых в системах верификации диктора. Описана структура свёрточных глубоких сетей доверия, алгоритм обучения данной сети. Предложено применение речевых признаков, извлекаемых из трёх слоёв обученной свёрточной глубокой сети доверия. Данный подход основан на применении методов анализа изображений как к уже выделенным признакам речевого сигнала, так и для их выделения из слоёв нейронной сети. Произведены экспериментальные исследования предложенных признаков на двух речевых корпусах: собственном речевом корпусе, включающем аудиозаписи 50 дикторов, и речевом корпусе TIMIT, включающем аудиозаписи 630 дикторов. Была произведена оценка точности предложенных признаков с применением классификаторов различного типа. Непосредственное применение данных признаков не дало увеличения точности по сравнению с использованием традиционных речевых признаков, таких как мел-кепстральные коэффициенты. Однако применение данных признаков в составе ансамбля классификаторов позволило достичь уменьшения равной ошибки 1-го и 2-го рода до 0,21% на собственном речевом корпусе и до 0,23% на речевом корпусе TIMIT. This paper is devoted to the use of the convolutional deep belief network as a speech feature extractor for automatic text-independent speaker verification. The paper describes the scope and problems of automatic speaker verification systems. Types of modern speaker verification systems and types of speech features used in speaker verification systems are considered. The structure and learning algorithm of convolutional deep belief networks is described. The use of speech features extracted from three layers of a trained convolution deep belief network is proposed. Experimental studies of the proposed features were performed on two speech corpora: own speech corpus including audio recordings of 50 speakers and TIMIT speech corpus including audio recordings of 630 speakers. The accuracy of the proposed features was assessed using different types of classifiers. Direct use of these features did not increase the accuracy compared to the use of traditional spectral speech features, such as mel-frequency cepstral coefficients. However, the use of these features in the classifiers ensemble made it possible to achieve a reduction of the equal error rate to 0.21% on 50-speaker speech corpus and to 0.23% on the TIMIT speech corpus.	ru
dc.description.sponsorship	Результаты были получены в рамках выполнения базовой части государственного задания Минобрнауки России, проект 8.9628.2017/8.9.	ru
dc.language.iso	rus	ru
dc.publisher	Новая техника	ru
dc.relation.ispartofseries	44;4	-
dc.subject	распознавание диктора	ru
dc.subject	верификация диктора	ru
dc.subject	Гауссовы смеси	ru
dc.subject	GMM-UBM-система	ru
dc.subject	речевые признаки	ru
dc.subject	обработка речи	ru
dc.subject	глубокое обучение	ru
dc.subject	нейронные сети	ru
dc.subject	распознавание образов	ru
dc.subject	speaker recognition	ru
dc.subject	speaker verification	ru
dc.subject	Gaussian mixture models	ru
dc.subject	GMM-UBM system	ru
dc.subject	speech features	ru
dc.subject	speech processing	ru
dc.subject	deep learning	ru
dc.subject	neural networks	ru
dc.subject	pattern recognition	ru
dc.title	Автоматическая верификация диктора по произвольной фразе с применением свёрточных глубоких сетей доверия	ru
dc.title.alternative	Automatic text-independent speaker verification using convolutional deep belief network	ru
dc.type	Article	ru
dc.textpart	В данном корпусе содержатся аудиозаписи носителей восьми основных диалектов американского английского языка, для каждого из ко- торых имеется по десять фонетически разнообразных, отражающих диалект или фонетически компактных фраз, часть из которых одинаковы для всех дикторов, часть отличается друг от друга. Всего в корпусе име- ются аудиозаписи 438 дикторов-мужчин и 192 дикто- ров-женщин. Рис. 2. Кривые компромиссного определения ошибки (DET кривые), полученные при исследовани...	-
dc.classindex.scsti	28.23.15	-
Располагается в коллекциях:	Журнал "Компьютерная оптика"

Файлы этого ресурса:

Файл	Описание	Размер	Формат
440414.pdf	Основная статья	1.38 MB	Adobe PDF	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики
Поделиться:

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Репозиторий Самарского университета