Отрывок: В качестве веса рёбер указывается количество встреч между словами. При дообучении в граф вносится новая порция обработанной информации. Но так как вес у новой связи изначально будет ниже чем у тех, которые уже были в графе, то для компенсации вводится новая структура у каждого узла, представленная в виде стека слов (𝐾 = 𝑘1𝑘2𝑘3 … 𝑘𝑚, где 𝑘𝑗 – отдельно взятое слово из стека). В ней хранятся последние связ...
Название : Построение графа последовательности текстовых единиц для создания системы генерации предложений
Другие названия : Building a graph of a sequence of text units to create a sentence generation system
Авторы/Редакторы : Каминский, М.П.
Рыцарев, И.А.
Куприянов, А.В.
Дата публикации : 2020
Библиографическое описание : Каминский М.П. Построение графа последовательности текстовых единиц для создания системы генерации предложений / М.П. Каминский, И.А. Рыцарев, А.В. Куприянов // Информационные технологии и нанотехнологии (ИТНТ-2020). Сборник трудов по материалам VI Международной конференции и молодежной школы (г. Самара, 26-29 мая): в 4 т. / Самар. нац.-исслед. ун-т им. С. П. Королева (Самар. ун-т), Ин-т систем. обраб. изобр. РАН-фил. ФНИЦ "Кристаллография и фотоника" РАН; [под ред. В. А. Фурсова]. – Самара: Изд-во Самар. ун-та, 2020. – Том 4. Науки о данных. – 2020. – С. 864-869.
Аннотация : Статья посвящена разработке системы анализа текстовых данных. Рассмотрен подход представления текста из постов отдельно взятой страницы в виде графа ключевых словосочетаний, при помощи которого в последствии будут строиться цепочки слов, схожие по стилистике написания с текстами автора. В рамках работы реализованы: сбор, фильтрация и обработка данных с использованием технологии Big Data. The article is devoted to the development of a text data analysis system. The approaches to the presentation of text from the posts of a single page in the form of a dictionary of phrases are considered. Within the framework of the work, data collection, filtering and processing using Big Data technologies were implemented.
URI (Унифицированный идентификатор ресурса) : http://repo.ssau.ru/handle/Informacionnye-tehnologii-i-nanotehnologii/Postroenie-grafa-posledovatelnosti-tekstovyh-edinic-dlya-sozdaniya-sistemy-generacii-predlozhenii-85074
Другие идентификаторы : Dspace\SGAU\20200805\85074
Располагается в коллекциях: Информационные технологии и нанотехнологии

Файлы этого ресурса:
Файл Описание Размер Формат  
ИТНТ-2020_том 4-864-869.pdf536.64 kBAdobe PDFПросмотреть/Открыть



Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.