Отрывок: Лексический анализ – первый шаг извлечения термов. На этом этапе отбрасываются все символы, которые не являются буквами, например, знаки препинания, html-тэги, символы разметки и т.д. Удаление стоп-слов – второй шаг извлечения термов. На этом этапе удаляются слова, которые не несут какой-либо самостоятельной семантической нагрузки. К стоп-словам относятся союзы, предлоги и местоимения. В целях уменьшения размерности пространства термов стоп- слова не учитываются и удаляются при...
Полная запись метаданных
Поле DC | Значение | Язык |
---|---|---|
dc.contributor.author | Мятлев Е. А. | ru |
dc.contributor.author | Белоусов А. А. | ru |
dc.contributor.author | Суханов С. В. | ru |
dc.contributor.author | Министерство образования и науки Российской Федерации | ru |
dc.contributor.author | Самарский национальный исследовательский университет им. С. П. Королева (Самарский университет) | ru |
dc.contributor.author | Институт информатики | ru |
dc.contributor.author | математики и электроники | ru |
dc.coverage.spatial | анализ текста | ru |
dc.coverage.spatial | извлечение термов | ru |
dc.coverage.spatial | метод Роше | ru |
dc.coverage.spatial | метод опорных векторов | ru |
dc.coverage.spatial | классификация | ru |
dc.coverage.spatial | классификаторы | ru |
dc.coverage.spatial | латентно-семантический анализ | ru |
dc.creator | Мятлев Е. А. | ru |
dc.date.issued | 2018 | ru |
dc.identifier | RU\НТБ СГАУ\ВКР20180907134842 | ru |
dc.identifier.citation | Мятлев, Е. А. Исследование методов решения задач классификации документов : вып. квалификац. работа по направлению подготовки "Прикладная математика и информатика" (уровень бакалавриата) / Е. А. Мятлев ; рук. работы А. А. Белоусов ; нормоконтролер С. В. Суханов ; М-во образования и науки Рос. Федерации, Самар. нац. исслед. ун-т им. С. П. Королева(Самар. ун-т), Ин-т информатики, мат. и э. - Самаpа, 2018. - on-line | ru |
dc.description.abstract | Объектом исследования являются алгоритмы классификации текста, такие как метод опорных векторов, метод Роше, метод k-ближайших соседей. Цель работы – реализация методов классификации документации по категориям, к которым относится некоторый документ с использованием языка программирования Python и библиотеки для машинного обучения Scikit Learn. Разработана программная реализация рассмотренных алгоритмов, с ее помощью проведен анализ тестовой выборки документов, выбран наилучший метод классификации, по оценке F-меры. | ru |
dc.format.extent | Электрон. дан. (1 файл : 2,3 Мб) | ru |
dc.title | Исследование методов решения задач классификации документов | ru |
dc.type | Text | ru |
dc.subject.rugasnti | 50.01 | ru |
dc.subject.udc | 004.9 | ru |
dc.textpart | Лексический анализ – первый шаг извлечения термов. На этом этапе отбрасываются все символы, которые не являются буквами, например, знаки препинания, html-тэги, символы разметки и т.д. Удаление стоп-слов – второй шаг извлечения термов. На этом этапе удаляются слова, которые не несут какой-либо самостоятельной семантической нагрузки. К стоп-словам относятся союзы, предлоги и местоимения. В целях уменьшения размерности пространства термов стоп- слова не учитываются и удаляются при... | - |
Располагается в коллекциях: | Выпускные квалификационные работы |
Файлы этого ресурса:
Файл | Размер | Формат | |
---|---|---|---|
Мятлев_Евгений_Андреевич_Исследование_методов_решения_задач.pdf | 2.32 MB | Adobe PDF | Просмотреть/Открыть |
Показать базовое описание ресурса
Просмотр статистики
Поделиться:
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.