Отрывок: В данном корпусе содержатся аудиозаписи носителей восьми основных диалектов американского английского языка, для каждого из ко- торых имеется по десять фонетически разнообразных, отражающих диалект или фонетически компактных фраз, часть из которых одинаковы для всех дикторов, часть отличается друг от друга. Всего в корпусе име- ются аудиозаписи 438 дикторов-мужчин и 192 дикто- ров-женщин. Рис. 2. Кривые компромиссного определения ошибки (DET кривые), полученные при исследовани...
Название : Автоматическая верификация диктора по произвольной фразе с применением свёрточных глубоких сетей доверия
Другие названия : Automatic text-independent speaker verification using convolutional deep belief network
Авторы/Редакторы : Рахманенко, И.А.
Шелупанов, А.А.
Костюченко, Е.Ю.
Ключевые слова : распознавание диктора
верификация диктора
Гауссовы смеси
GMM-UBM-система
речевые признаки
обработка речи
глубокое обучение
нейронные сети
распознавание образов
speaker recognition
speaker verification
Gaussian mixture models
GMM-UBM system
speech features
speech processing
deep learning
neural networks
pattern recognition
Дата публикации : Авг-2020
Издательство : Новая техника
Библиографическое описание : Рахманенко, И.А. Автоматическая верификация диктора по произвольной фразе с применением свёрточных глубоких сетей доверия / И.А. Рахманенко, А.А. Шелупанов, Е.Ю. Костюченко // Компьютерная оптика. – 2020. – Т. 44, № 4. – С. 596-605. – DOI: 10.18287/2412-6179-CO-621.
Серия/номер : 44;4
Аннотация : Данная статья посвящена применению свёрточных глубоких сетей доверия в качестве средства извлечения речевых признаков из аудиозаписей для решения задачи автоматической, текстонезависимой верификации диктора. В работе описаны область применения и проблемы систем автоматической верификации диктора. Рассмотрены типы современных систем верификации диктора, основные типы речевых признаков, используемых в системах верификации диктора. Описана структура свёрточных глубоких сетей доверия, алгоритм обучения данной сети. Предложено применение речевых признаков, извлекаемых из трёх слоёв обученной свёрточной глубокой сети доверия. Данный подход основан на применении методов анализа изображений как к уже выделенным признакам речевого сигнала, так и для их выделения из слоёв нейронной сети. Произведены экспериментальные исследования предложенных признаков на двух речевых корпусах: собственном речевом корпусе, включающем аудиозаписи 50 дикторов, и речевом корпусе TIMIT, включающем аудиозаписи 630 дикторов. Была произведена оценка точности предложенных признаков с применением классификаторов различного типа. Непосредственное применение данных признаков не дало увеличения точности по сравнению с использованием традиционных речевых признаков, таких как мел-кепстральные коэффициенты. Однако применение данных признаков в составе ансамбля классификаторов позволило достичь уменьшения равной ошибки 1-го и 2-го рода до 0,21% на собственном речевом корпусе и до 0,23% на речевом корпусе TIMIT. This paper is devoted to the use of the convolutional deep belief network as a speech feature extractor for automatic text-independent speaker verification. The paper describes the scope and problems of automatic speaker verification systems. Types of modern speaker verification systems and types of speech features used in speaker verification systems are considered. The structure and learning algorithm of convolutional deep belief networks is described. The use of speech features extracted from three layers of a trained convolution deep belief network is proposed. Experimental studies of the proposed features were performed on two speech corpora: own speech corpus including audio recordings of 50 speakers and TIMIT speech corpus including audio recordings of 630 speakers. The accuracy of the proposed features was assessed using different types of classifiers. Direct use of these features did not increase the accuracy compared to the use of traditional spectral speech features, such as mel-frequency cepstral coefficients. However, the use of these features in the classifiers ensemble made it possible to achieve a reduction of the equal error rate to 0.21% on 50-speaker speech corpus and to 0.23% on the TIMIT speech corpus.
URI (Унифицированный идентификатор ресурса) : https://dx.doi.org/10.18287/2412-6179-CO-621
http://repo.ssau.ru/handle/Zhurnal-Komputernaya-optika/Avtomaticheskaya-verifikaciya-diktora-po-proizvolnoi-fraze-s-primeneniem-svertochnyh-glubokih-setei-doveriya-85564
Другие идентификаторы : Dspace\SGAU\20200913\85564
ГРНТИ: 28.23.15
Располагается в коллекциях: Журнал "Компьютерная оптика"

Файлы этого ресурса:
Файл Описание Размер Формат  
440414.pdfОсновная статья1.38 MBAdobe PDFПросмотреть/Открыть



Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.