Извлечение предпочтений пользователя на основе методов автоматического порождения текстовых описаний изображений фотоальбома

Харчевникова, А.С.; Савченко, А.В.

Отрывок: В табл. 6 приведены при- меры текстовых описаний, порожденных использо- вавшимися в эксперименте моделями, на вход кото- рых поступило изображение на рис. 4. Табл. 7 и 8 отражают предпочтения по нескольким категориям, выявленные моделями im2txt и CC Mo- bileNet соответственно. Согласно приведенным табл. 7 и 8, лучшим из рассматриваемых методов определения предпочтений оказался сторонний функционал, предоставленный Watso...

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.author	Харчевникова, А.С.	-
dc.contributor.author	Савченко, А.В.	-
dc.date.accessioned	2020-10-27 09:59:44	-
dc.date.available	2020-10-27 09:59:44	-
dc.date.issued	2020-08	-
dc.identifier	Dspace\SGAU\20200913\85566	ru
dc.identifier.citation	Харчевникова, А.С. Извлечение предпочтений пользователя на основе методов автоматического порождения текстовых описаний изображений фотоальбома / А.С. Харчевникова, А.В. Савченко // Компьютерная оптика. – 2020. – Т. 44, № 4. – С. 618-626. – DOI: 10.18287/2412-6179-CO-678.	ru
dc.identifier.uri	https://dx.doi.org/10.18287/2412-6179-CO-678	-
dc.identifier.uri	http://repo.ssau.ru/handle/Zhurnal-Komputernaya-optika/Izvlechenie-predpochtenii-polzovatelya-na-osnove-metodov-avtomaticheskogo-porozhdeniya-tekstovyh-opisanii-izobrazhenii-fotoalboma-85566	-
dc.description.abstract	В работе рассматривается задача извлечения предпочтений пользователя по его фотоальбому. Предложен новый подход на основе автоматического порождения текстовых описаний фотографий и последующей классификации таких описаний. Проведен анализ известных методов создания аннотаций по изображению на основе свёрточных и рекуррентных (Long short-term memory) нейронных сетей. С использованием набора данных Google's Conceptual Captions обучены новые модели, в которых объединяются характерные признаки фотографии и выходы блока рекуррентной нейронной сети. Исследовано применение алгоритмов обработки текстов для преобразования полученных аннотаций в пользовательские предпочтения. Проведены экспериментальные исследования с помощью наборов данных Microsoft COCO Captions, Flickr8k и специально собранного набора данных, отражающего интересы пользователя. Показано, что наилучшее качество определения предпочтений достигается с помощью методов поиска ключевых слов и суммаризации текстов из Watson API, которые оказываются на 8% точнее по сравнению с традиционным латентным размещением Дирихле. При этом описания, порожденные с помощью обученных моделей, классифицируются на 1–7% точнее известных аналогов. The paper considers a problem of extracting user preferences based on their photo gallery. We propose a novel approach based on image captioning, i.e., automatic generation of textual descriptions of photos, and their classification. Known image captioning methods based on convolutional and recurrent (Long short-term memory) neural networks are analyzed. We train several models that combine the visual features of a photograph and the outputs of an Long short-term memory block by using Google's Conceptual Captions dataset. We examine application of natural language processing algorithms to transform obtained textual annotations into user preferences. Experimental studies are carried out using Microsoft COCO Captions, Flickr8k and a specially collected dataset reflecting the user’s interests. It is demonstrated that the best quality of preference prediction is achieved using keyword search methods and text summarization from Watson API, which are 8 % more accurate compared to traditional latent Dirichlet allocation. Moreover, descriptions generated by trained neural models are classified 1 – 7 % more accurately when compared to known image captioning models.	ru
dc.description.sponsorship	Статья подготовлена в результате проведения исследования (№ 19-04-004) в рамках Программы «Научный фонд Национального исследовательского университета «Высшая школа экономики» (НИУ ВШЭ)» в 2019 г. и в рамках государственной поддержки ведущих университетов Российской Федерации "5-100".	ru
dc.language.iso	rus	ru
dc.publisher	Новая техника	ru
dc.relation.ispartofseries	44;4	-
dc.subject	анализ предпочтений пользователя	ru
dc.subject	обработка изображений	ru
dc.subject	текстовое описание изображений	ru
dc.subject	сверточные нейронные сети	ru
dc.subject	user modeling	ru
dc.subject	image processing	ru
dc.subject	image captioning	ru
dc.subject	convolutional neural networks	ru
dc.title	Извлечение предпочтений пользователя на основе методов автоматического порождения текстовых описаний изображений фотоальбома	ru
dc.title.alternative	Visual preferences prediction for a photo gallery based on image captioning methods	ru
dc.type	Article	ru
dc.textpart	В табл. 6 приведены при- меры текстовых описаний, порожденных использо- вавшимися в эксперименте моделями, на вход кото- рых поступило изображение на рис. 4. Табл. 7 и 8 отражают предпочтения по нескольким категориям, выявленные моделями im2txt и CC Mo- bileNet соответственно. Согласно приведенным табл. 7 и 8, лучшим из рассматриваемых методов определения предпочтений оказался сторонний функционал, предоставленный Watso...	-
dc.classindex.scsti	28.23.15	-
Располагается в коллекциях:	Журнал "Компьютерная оптика"

Файлы этого ресурса:

Файл	Описание	Размер	Формат
440416.pdf	Основная статья	1.37 MB	Adobe PDF	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики
Поделиться:

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Репозиторий Самарского университета