Исследование алгоритмов обработки текстовых данных в социальных сетях

Рыцарев, И.А.; Курбатов, Ю.А.; Куприянов, А.В.

Отрывок: Следующим этапом нашей работы была разработка программного модуля для сбора данных. Реализация была осуществлена в Python с использованием скриптовой библиотеки для ВКонтакте. Все взаимодействие с социальной сетью затем осуществляется через модуль. После сбора записей выбранных сообществ на совокупности всех текстов обучили Word2Vec, реализованный в библиотеке gensim. Для анализа данных взяли матрицу с шириной окна 5∗2 = 10, а размерность...

Название :	Исследование алгоритмов обработки текстовых данных в социальных сетях
Другие названия :	Research of text data processing algorithms in social networks
Авторы/Редакторы :	Курбатов, Ю.А. Рыцарев, И.А. Куприянов, А.В.
Дата публикации :	2020
Библиографическое описание :	Курбатов Ю.А. Исследование алгоритмов обработки текстовых данных в социальных сетях / Ю.А. Курбатов, И.А. Рыцарев, А.В. Куприянов // Информационные технологии и нанотехнологии (ИТНТ-2020). Сборник трудов по материалам VI Международной конференции и молодежной школы (г. Самара, 26-29 мая): в 4 т. / Самар. нац.-исслед. ун-т им. С. П. Королева (Самар. ун-т), Ин-т систем. обраб. изобр. РАН-фил. ФНИЦ "Кристаллография и фотоника" РАН; [под ред. В. А. Фурсова]. – Самара: Изд-во Самар. ун-та, 2020. – Том 4. Науки о данных. – 2020. – С. 938-942.
Аннотация :	В работе проводится исследование различных алгоритмов кластеризации большого объёма текстовых данных. Был проведён анализ существующих способов реализации и выбраны алгоритмы Word2Vec и GloVe. Исходные текстовые данные для тестирования алгоритмов были получены путём сбора записей из открытых сообществ ВКонтакте. Полученные результаты показали, что, применение данных алгоритмов позволяет оценить частоту употребления и значимость отдельных слов относительно контекста исследуемого сообщества. Также в работе было произведено сравнение результатов применения алгоритмов и сделан вывод об их эффективности. In this paper we investigate various clustering algorithms for a large amount of text data. An analysis of the existing implementation methods was carried out and the algorithms Word2Vec and GloVe were selected. The initial textual data for testing the algorithms were obtained by collecting records from open VKontakte communities. The results showed that the use of these algorithms allows us to assess the frequency of use and the significance of individual words relative to the context of the studied community. The results of the algorithms`applications were compared and the conclusion about their efficiency was made in the work as well.
URI (Унифицированный идентификатор ресурса) :	http://repo.ssau.ru/handle/Informacionnye-tehnologii-i-nanotehnologii/Issledovanie-algoritmov-obrabotki-tekstovyh-dannyh-v-socialnyh-setyah-85086
Другие идентификаторы :	Dspace\SGAU\20200805\85086
Располагается в коллекциях:	Информационные технологии и нанотехнологии

Файлы этого ресурса:

Файл	Описание	Размер	Формат
ИТНТ-2020_том 4-938-942.pdf		596.91 kB	Adobe PDF	Просмотреть/Открыть

Показать полное описание ресурса Просмотр статистики
Поделиться:

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Репозиторий Самарского университета