Отрывок: Лексический анализ – первый шаг извлечения термов. На этом этапе отбрасываются все символы, которые не являются буквами, например, знаки препинания, html-тэги, символы разметки и т.д. Удаление стоп-слов – второй шаг извлечения термов. На этом этапе удаляются слова, которые не несут какой-либо самостоятельной семантической нагрузки. К стоп-словам относятся союзы, предлоги и местоимения. В целях уменьшения размерности пространства термов стоп- слова не учитываются и удаляются при...
Название : Исследование методов решения задач классификации документов
Авторы/Редакторы : Мятлев Е. А.
Белоусов А. А.
Суханов С. В.
Министерство образования и науки Российской Федерации
Самарский национальный исследовательский университет им. С. П. Королева (Самарский университет)
Институт информатики
математики и электроники
Дата публикации : 2018
Библиографическое описание : Мятлев, Е. А. Исследование методов решения задач классификации документов : вып. квалификац. работа по направлению подготовки "Прикладная математика и информатика" (уровень бакалавриата) / Е. А. Мятлев ; рук. работы А. А. Белоусов ; нормоконтролер С. В. Суханов ; М-во образования и науки Рос. Федерации, Самар. нац. исслед. ун-т им. С. П. Королева(Самар. ун-т), Ин-т информатики, мат. и э. - Самаpа, 2018. - on-line
Аннотация : Объектом исследования являются алгоритмы классификации текста, такие как метод опорных векторов, метод Роше, метод k-ближайших соседей. Цель работы – реализация методов классификации документации по категориям, к которым относится некоторый документ с использованием языка программирования Python и библиотеки для машинного обучения Scikit Learn. Разработана программная реализация рассмотренных алгоритмов, с ее помощью проведен анализ тестовой выборки документов, выбран наилучший метод классификации, по оценке F-меры.
Другие идентификаторы : RU\НТБ СГАУ\ВКР20180907134842
Ключевые слова: анализ текста
извлечение термов
метод Роше
метод опорных векторов
классификация
классификаторы
латентно-семантический анализ
Располагается в коллекциях: Выпускные квалификационные работы




Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.