Методы обнаружения неестественных текстов, порожденных на основе обучающей выборки

Кнутова Е. М.; Институт информатики; Министерство образования и науки Российской Федерации; Житкова А. В.; математики и электроники; Самарский национальный исследовательский университет им. С. П. Королева (Самарский университет); Пиявский С. А.

Отрывок: 7% неестественных текстов. 976 текстов из 41796 были признаны неестественными, что является 2.4% ошибки на базе текстов «ruscorpora». Процент ошибки является приемлемым, а значит если «степень неестественности» текста больше 3, то текст считается неестественным. Метод может успешно использоваться и давать положительный результат для поиска неестественных текстов. И в составе классификатора данный метод поможет опред...

Название :	Методы обнаружения неестественных текстов, порожденных на основе обучающей выборки
Авторы/Редакторы :	Житкова А. В. Кнутова Е. М. Пиявский С. А. Министерство образования и науки Российской Федерации Самарский национальный исследовательский университет им. С. П. Королева (Самарский университет) Институт информатики математики и электроники
Дата публикации :	2017
Библиографическое описание :	Житкова, А. В. Методы обнаружения неестественных текстов, порожденных на основе обучающей выборки : вып. квалификац. работа по спец. "Компьютерная безопасность" / А. В. Житкова ; рук. работы Е. М. Кнутова; рец. С. А. Пиявский ; М-во образования и науки Рос. Федерации, Самар. нац. исслед. ун-т им. С. П. Королева (Самар. ун-т), Ин-т информатики, математики и элек. - Самара, 2017. - on-line
Аннотация :	Рассмотрены основные методы создания текстового спама.Проанализированы методы обнаружения неестественных текстов,порожденных на основе обучающей выборки. Реализована программа,выполняющая вычисление параметра тематического разнообразия в законеЦипфа,
Другие идентификаторы :	RU\НТБ СГАУ\ВКР20170220101356
Ключевые слова:	тематическое разнообразие тематическая структура текста генератор текста поисковый спам закон Ципфа спам неестественные тексты F-мера методы порождения неестественных текстов методы обнаружения неестественных текстов
Располагается в коллекциях:	Выпускные квалификационные работы

Файлы этого ресурса:

Файл	Размер	Формат
Житкова_Анастасия_Владимировна_Методы_обнаружения_неестественных_текстов,.pdf	877.54 kB	Adobe PDF	Просмотреть/Открыть

Показать полное описание ресурса Просмотр статистики
Поделиться:

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Репозиторий Самарского университета