Отрывок: 7% неестественных текстов. 976 текстов из 41796 были признаны неестественными, что является 2.4% ошибки на базе текстов «ruscorpora». Процент ошибки является приемлемым, а значит если «степень неестественности» текста больше 3, то текст считается неестественным. Метод может успешно использоваться и давать положительный результат для поиска неестественных текстов. И в составе классификатора данный метод поможет опред...
Название : Методы обнаружения неестественных текстов, порожденных на основе обучающей выборки
Авторы/Редакторы : Житкова А. В.
Кнутова Е. М.
Пиявский С. А.
Министерство образования и науки Российской Федерации
Самарский национальный исследовательский университет им. С. П. Королева (Самарский университет)
Институт информатики
математики и электроники
Дата публикации : 2017
Библиографическое описание : Житкова, А. В. Методы обнаружения неестественных текстов, порожденных на основе обучающей выборки : вып. квалификац. работа по спец. "Компьютерная безопасность" / А. В. Житкова ; рук. работы Е. М. Кнутова; рец. С. А. Пиявский ; М-во образования и науки Рос. Федерации, Самар. нац. исслед. ун-т им. С. П. Королева (Самар. ун-т), Ин-т информатики, математики и элек. - Самара, 2017. - on-line
Аннотация : Рассмотрены основные методы создания текстового спама.Проанализированы методы обнаружения неестественных текстов,порожденных на основе обучающей выборки. Реализована программа,выполняющая вычисление параметра тематического разнообразия в законеЦипфа,
Другие идентификаторы : RU\НТБ СГАУ\ВКР20170220101356
Ключевые слова: тематическое разнообразие
тематическая структура текста
генератор текста
поисковый спам
закон Ципфа
спам
неестественные тексты
F-мера
методы порождения неестественных текстов
методы обнаружения неестественных текстов
Располагается в коллекциях: Выпускные квалификационные работы




Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.