Выделение знаний и языковых форм их выражения на множестве тематических текстов анализом связей слов в составе n-грамм

Козлов, А.П.; Емельянов, Г.М.; Михайлов, Д.В.

Отрывок: х правил, оценка (5) 1 2 0 0 2 0 0 1 2 4 0 0 2 0 0 2 3 4 1 0 3 1 0 3 4 2 1 1 0 1 1 0 5 3 0 1 2 0 1 2 6 3 0 0 1 0 0 1 7 3 0 0 1 0 0 2 8 2 1 0 2 1 0 2 9 3 0 0 3 0 0 5 без привлечения базы синтаксических правил, оценка (6) 1 1 0 0 1 0 0 1 2 1 0 0 1 0 0 1 3 2 1 0 1 2 0 1 4 1 0 1 0 0 1 0 5 1 0 1 1 0 1 1 6 10 1 0 4 1 0 3 7 3 0 0 1 0 0 2 8 6 1 0 2 1 0 2 9 2 0 0 2 0 0 4 с привлечением базы синтаксических правил, оценка (5) 1 5 0 0 3 0 0 3 2 2 0 0 1 0 0 1 3 19 0 3 4 0 2 4 4 7 1 0...

Название :	Выделение знаний и языковых форм их выражения на множестве тематических текстов анализом связей слов в составе n-грамм
Другие названия :	An approach based on analysis of n-grams on links of words to extract the knowledge and relevant linguistic means on subject-oriented text sets
Авторы/Редакторы :	Михайлов, Д.В. Козлов, А.П. Емельянов, Г.М.
Ключевые слова :	распознавание образов интеллектуальный анализ данных теория информации тест открытой формы языковое представление экспертных знаний контекстно-зависимое аннотирование поисковое ранжирование документов
Дата публикации :	Июн-2017
Издательство :	Самарский университет
Библиографическое описание :	Михайлов, Д.В. Выделение знаний и языковых форм их выражения на множестве тематических текстов анализом связей слов в составе n-грамм / Д.В. Михайлов, А.П. Козлов, Г.М. Емельянов // Компьютерная оптика. – 2017. – Т. 41, № 3. – С. 461-471
Серия/номер :	41;3
Аннотация :	Статья посвящена взаимосвязанным проблемам выделения единиц знаний из множества (корпуса) тематических текстов анализом релевантности исходной фразе и полноты отражения в исходных фразах выделяемого фактического знания. Данные проблемы актуальны для построения систем обработки, анализа, оценивания и понимания информации. Конечной практической целью здесь является поиск наиболее рационального варианта передачи смысла средствами заданного естественного языка для последующей фиксации фрагментов знаний в тезаурусе и онтологии предметной области. При этом релевантность текста по описываемому фрагменту знания (включая формы выражения в языке) определяется совместным использованием оценки силы связи встречающихся в его фразах сочетаний слов исходной фразы и разбиением этих слов на классы по значению меры TF-IDF относительно текстов корпуса. В настоящей работе рассматривается расширение связей слов от традиционных биграмм до трёх и более элементов для выделения составляющих образа исходной фразы в виде сочетаний связанных по смыслу слов (с привлечением базы известных синтаксических отношений и без использования таковой). С целью более полного описания выделяемого в текстах корпуса фрагмента экспертного знания вводятся в рассмотрение совокупности исходных фраз, взаимно эквивалентных либо дополняющих друг друга по смыслу и представляющих единый образ. По сравнению с поиском составляющих рассматриваемого образа на готовом синтаксически размеченном текстовом корпусе предложенный метод позволяет в среднем в 17 раз сократить выход фраз, не релевантных исходным ни по описываемому фрагменту знания, ни по языковым формам его выражения.
URI (Унифицированный идентификатор ресурса) :	https://dx.doi.org/10.18287/2412-6179-2017-41-3-461-471 http://repo.ssau.ru/handle/Zhurnal-Komputernaya-optika/Vydelenie-znanii-i-yazykovyh-form-ih-vyrazheniya-na-mnozhestve-tematicheskih-tekstov-analizom-svyazei-slov-v-sostave-ngramm-65836
Другие идентификаторы :	Dspace\SGAU\20171030\65836
ГРНТИ:	28.23.11 28.23.15 20.23.19
Располагается в коллекциях:	Журнал "Компьютерная оптика"

Файлы этого ресурса:

Файл	Описание	Размер	Формат
410320.pdf		312.55 kB	Adobe PDF	Просмотреть/Открыть

Показать полное описание ресурса Просмотр статистики
Поделиться:

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Репозиторий Самарского университета