Отрывок: Лексический анализ – первый шаг извлечения термов. На этом этапе отбрасываются все символы, которые не являются буквами, например, знаки препинания, html-тэги, символы разметки и т.д. Удаление стоп-слов – второй шаг извлечения термов. На этом этапе удаляются слова, которые не несут какой-либо самостоятельной семантической нагрузки. К стоп-словам относятся союзы, предлоги и местоимения. В целях уменьшения размерности пространства термов стоп- слова не учитываются и удаляются при...
Название : | Исследование методов решения задач классификации документов |
Авторы/Редакторы : | Мятлев Е. А. Белоусов А. А. Суханов С. В. Министерство образования и науки Российской Федерации Самарский национальный исследовательский университет им. С. П. Королева (Самарский университет) Институт информатики математики и электроники |
Дата публикации : | 2018 |
Библиографическое описание : | Мятлев, Е. А. Исследование методов решения задач классификации документов : вып. квалификац. работа по направлению подготовки "Прикладная математика и информатика" (уровень бакалавриата) / Е. А. Мятлев ; рук. работы А. А. Белоусов ; нормоконтролер С. В. Суханов ; М-во образования и науки Рос. Федерации, Самар. нац. исслед. ун-т им. С. П. Королева(Самар. ун-т), Ин-т информатики, мат. и э. - Самаpа, 2018. - on-line |
Аннотация : | Объектом исследования являются алгоритмы классификации текста, такие как метод опорных векторов, метод Роше, метод k-ближайших соседей. Цель работы – реализация методов классификации документации по категориям, к которым относится некоторый документ с использованием языка программирования Python и библиотеки для машинного обучения Scikit Learn. Разработана программная реализация рассмотренных алгоритмов, с ее помощью проведен анализ тестовой выборки документов, выбран наилучший метод классификации, по оценке F-меры. |
Другие идентификаторы : | RU\НТБ СГАУ\ВКР20180907134842 |
Ключевые слова: | анализ текста извлечение термов метод Роше метод опорных векторов классификация классификаторы латентно-семантический анализ |
Располагается в коллекциях: | Выпускные квалификационные работы |
Файлы этого ресурса:
Файл | Размер | Формат | |
---|---|---|---|
Мятлев_Евгений_Андреевич_Исследование_методов_решения_задач.pdf | 2.32 MB | Adobe PDF | Просмотреть/Открыть |
Показать полное описание ресурса
Просмотр статистики
Поделиться:
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.