Отрывок: В данном корпусе содержатся аудиозаписи носителей восьми основных диалектов американского английского языка, для каждого из ко- торых имеется по десять фонетически разнообразных, отражающих диалект или фонетически компактных фраз, часть из которых одинаковы для всех дикторов, часть отличается друг от друга. Всего в корпусе име- ются аудиозаписи 438 дикторов-мужчин и 192 дикто- ров-женщин. Рис. 2. Кривые компромиссного определения ошибки (DET кривые), полученные при исследовани...
Полная запись метаданных
Поле DC Значение Язык
dc.contributor.authorРахманенко, И.А.-
dc.contributor.authorШелупанов, А.А.-
dc.contributor.authorКостюченко, Е.Ю.-
dc.date.accessioned2020-10-27 09:59:30-
dc.date.available2020-10-27 09:59:30-
dc.date.issued2020-08-
dc.identifierDspace\SGAU\20200913\85564ru
dc.identifier.citationРахманенко, И.А. Автоматическая верификация диктора по произвольной фразе с применением свёрточных глубоких сетей доверия / И.А. Рахманенко, А.А. Шелупанов, Е.Ю. Костюченко // Компьютерная оптика. – 2020. – Т. 44, № 4. – С. 596-605. – DOI: 10.18287/2412-6179-CO-621.ru
dc.identifier.urihttps://dx.doi.org/10.18287/2412-6179-CO-621-
dc.identifier.urihttp://repo.ssau.ru/handle/Zhurnal-Komputernaya-optika/Avtomaticheskaya-verifikaciya-diktora-po-proizvolnoi-fraze-s-primeneniem-svertochnyh-glubokih-setei-doveriya-85564-
dc.description.abstractДанная статья посвящена применению свёрточных глубоких сетей доверия в качестве средства извлечения речевых признаков из аудиозаписей для решения задачи автоматической, текстонезависимой верификации диктора. В работе описаны область применения и проблемы систем автоматической верификации диктора. Рассмотрены типы современных систем верификации диктора, основные типы речевых признаков, используемых в системах верификации диктора. Описана структура свёрточных глубоких сетей доверия, алгоритм обучения данной сети. Предложено применение речевых признаков, извлекаемых из трёх слоёв обученной свёрточной глубокой сети доверия. Данный подход основан на применении методов анализа изображений как к уже выделенным признакам речевого сигнала, так и для их выделения из слоёв нейронной сети. Произведены экспериментальные исследования предложенных признаков на двух речевых корпусах: собственном речевом корпусе, включающем аудиозаписи 50 дикторов, и речевом корпусе TIMIT, включающем аудиозаписи 630 дикторов. Была произведена оценка точности предложенных признаков с применением классификаторов различного типа. Непосредственное применение данных признаков не дало увеличения точности по сравнению с использованием традиционных речевых признаков, таких как мел-кепстральные коэффициенты. Однако применение данных признаков в составе ансамбля классификаторов позволило достичь уменьшения равной ошибки 1-го и 2-го рода до 0,21% на собственном речевом корпусе и до 0,23% на речевом корпусе TIMIT. This paper is devoted to the use of the convolutional deep belief network as a speech feature extractor for automatic text-independent speaker verification. The paper describes the scope and problems of automatic speaker verification systems. Types of modern speaker verification systems and types of speech features used in speaker verification systems are considered. The structure and learning algorithm of convolutional deep belief networks is described. The use of speech features extracted from three layers of a trained convolution deep belief network is proposed. Experimental studies of the proposed features were performed on two speech corpora: own speech corpus including audio recordings of 50 speakers and TIMIT speech corpus including audio recordings of 630 speakers. The accuracy of the proposed features was assessed using different types of classifiers. Direct use of these features did not increase the accuracy compared to the use of traditional spectral speech features, such as mel-frequency cepstral coefficients. However, the use of these features in the classifiers ensemble made it possible to achieve a reduction of the equal error rate to 0.21% on 50-speaker speech corpus and to 0.23% on the TIMIT speech corpus.ru
dc.description.sponsorshipРезультаты были получены в рамках выполнения базовой части государственного задания Минобрнауки России, проект 8.9628.2017/8.9.ru
dc.language.isorusru
dc.publisherНовая техникаru
dc.relation.ispartofseries44;4-
dc.subjectраспознавание диктораru
dc.subjectверификация диктораru
dc.subjectГауссовы смесиru
dc.subjectGMM-UBM-системаru
dc.subjectречевые признакиru
dc.subjectобработка речиru
dc.subjectглубокое обучениеru
dc.subjectнейронные сетиru
dc.subjectраспознавание образовru
dc.subjectspeaker recognitionru
dc.subjectspeaker verificationru
dc.subjectGaussian mixture modelsru
dc.subjectGMM-UBM systemru
dc.subjectspeech featuresru
dc.subjectspeech processingru
dc.subjectdeep learningru
dc.subjectneural networksru
dc.subjectpattern recognitionru
dc.titleАвтоматическая верификация диктора по произвольной фразе с применением свёрточных глубоких сетей доверияru
dc.title.alternativeAutomatic text-independent speaker verification using convolutional deep belief networkru
dc.typeArticleru
dc.textpartВ данном корпусе содержатся аудиозаписи носителей восьми основных диалектов американского английского языка, для каждого из ко- торых имеется по десять фонетически разнообразных, отражающих диалект или фонетически компактных фраз, часть из которых одинаковы для всех дикторов, часть отличается друг от друга. Всего в корпусе име- ются аудиозаписи 438 дикторов-мужчин и 192 дикто- ров-женщин. Рис. 2. Кривые компромиссного определения ошибки (DET кривые), полученные при исследовани...-
dc.classindex.scsti28.23.15-
Располагается в коллекциях: Журнал "Компьютерная оптика"

Файлы этого ресурса:
Файл Описание Размер Формат  
440414.pdfОсновная статья1.38 MBAdobe PDFПросмотреть/Открыть



Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.