Отрывок: В табл. 6 приведены при- меры текстовых описаний, порожденных использо- вавшимися в эксперименте моделями, на вход кото- рых поступило изображение на рис. 4. Табл. 7 и 8 отражают предпочтения по нескольким категориям, выявленные моделями im2txt и CC Mo- bileNet соответственно. Согласно приведенным табл. 7 и 8, лучшим из рассматриваемых методов определения предпочтений оказался сторонний функционал, предоставленный Watso...
Название : | Извлечение предпочтений пользователя на основе методов автоматического порождения текстовых описаний изображений фотоальбома |
Другие названия : | Visual preferences prediction for a photo gallery based on image captioning methods |
Авторы/Редакторы : | Харчевникова, А.С. Савченко, А.В. |
Ключевые слова : | анализ предпочтений пользователя обработка изображений текстовое описание изображений сверточные нейронные сети user modeling image processing image captioning convolutional neural networks |
Дата публикации : | Авг-2020 |
Издательство : | Новая техника |
Библиографическое описание : | Харчевникова, А.С. Извлечение предпочтений пользователя на основе методов автоматического порождения текстовых описаний изображений фотоальбома / А.С. Харчевникова, А.В. Савченко // Компьютерная оптика. – 2020. – Т. 44, № 4. – С. 618-626. – DOI: 10.18287/2412-6179-CO-678. |
Серия/номер : | 44;4 |
Аннотация : | В работе рассматривается задача извлечения предпочтений пользователя по его фотоальбому. Предложен новый подход на основе автоматического порождения текстовых описаний фотографий и последующей классификации таких описаний. Проведен анализ известных методов создания аннотаций по изображению на основе свёрточных и рекуррентных (Long short-term memory) нейронных сетей. С использованием набора данных Google's Conceptual Captions обучены новые модели, в которых объединяются характерные признаки фотографии и выходы блока рекуррентной нейронной сети. Исследовано применение алгоритмов обработки текстов для преобразования полученных аннотаций в пользовательские предпочтения. Проведены экспериментальные исследования с помощью наборов данных Microsoft COCO Captions, Flickr8k и специально собранного набора данных, отражающего интересы пользователя. Показано, что наилучшее качество определения предпочтений достигается с помощью методов поиска ключевых слов и суммаризации текстов из Watson API, которые оказываются на 8% точнее по сравнению с традиционным латентным размещением Дирихле. При этом описания, порожденные с помощью обученных моделей, классифицируются на 1–7% точнее известных аналогов. The paper considers a problem of extracting user preferences based on their photo gallery. We propose a novel approach based on image captioning, i.e., automatic generation of textual descriptions of photos, and their classification. Known image captioning methods based on convolutional and recurrent (Long short-term memory) neural networks are analyzed. We train several models that combine the visual features of a photograph and the outputs of an Long short-term memory block by using Google's Conceptual Captions dataset. We examine application of natural language processing algorithms to transform obtained textual annotations into user preferences. Experimental studies are carried out using Microsoft COCO Captions, Flickr8k and a specially collected dataset reflecting the user’s interests. It is demonstrated that the best quality of preference prediction is achieved using keyword search methods and text summarization from Watson API, which are 8 % more accurate compared to traditional latent Dirichlet allocation. Moreover, descriptions generated by trained neural models are classified 1 – 7 % more accurately when compared to known image captioning models. |
URI (Унифицированный идентификатор ресурса) : | https://dx.doi.org/10.18287/2412-6179-CO-678 http://repo.ssau.ru/handle/Zhurnal-Komputernaya-optika/Izvlechenie-predpochtenii-polzovatelya-na-osnove-metodov-avtomaticheskogo-porozhdeniya-tekstovyh-opisanii-izobrazhenii-fotoalboma-85566 |
Другие идентификаторы : | Dspace\SGAU\20200913\85566 |
ГРНТИ: | 28.23.15 |
Располагается в коллекциях: | Журнал "Компьютерная оптика" |
Файлы этого ресурса:
Файл | Описание | Размер | Формат | |
---|---|---|---|---|
440416.pdf | Основная статья | 1.37 MB | Adobe PDF | Просмотреть/Открыть |
Показать полное описание ресурса
Просмотр статистики
Поделиться:
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.