Отрывок: х правил, оценка (5) 1 2 0 0 2 0 0 1 2 4 0 0 2 0 0 2 3 4 1 0 3 1 0 3 4 2 1 1 0 1 1 0 5 3 0 1 2 0 1 2 6 3 0 0 1 0 0 1 7 3 0 0 1 0 0 2 8 2 1 0 2 1 0 2 9 3 0 0 3 0 0 5 без привлечения базы синтаксических правил, оценка (6) 1 1 0 0 1 0 0 1 2 1 0 0 1 0 0 1 3 2 1 0 1 2 0 1 4 1 0 1 0 0 1 0 5 1 0 1 1 0 1 1 6 10 1 0 4 1 0 3 7 3 0 0 1 0 0 2 8 6 1 0 2 1 0 2 9 2 0 0 2 0 0 4 с привлечением базы синтаксических правил, оценка (5) 1 5 0 0 3 0 0 3 2 2 0 0 1 0 0 1 3 19 0 3 4 0 2 4 4 7 1 0...
Название : Выделение знаний и языковых форм их выражения на множестве тематических текстов анализом связей слов в составе n-грамм
Другие названия : An approach based on analysis of n-grams on links of words to extract the knowledge and relevant linguistic means on subject-oriented text sets
Авторы/Редакторы : Михайлов, Д.В.
Козлов, А.П.
Емельянов, Г.М.
Ключевые слова : распознавание образов
интеллектуальный анализ данных
теория информации
тест открытой формы
языковое представление экспертных знаний
контекстно-зависимое аннотирование
поисковое ранжирование документов
Дата публикации : Июн-2017
Издательство : Самарский университет
Библиографическое описание : Михайлов, Д.В. Выделение знаний и языковых форм их выражения на множестве тематических текстов анализом связей слов в составе n-грамм / Д.В. Михайлов, А.П. Козлов, Г.М. Емельянов // Компьютерная оптика. – 2017. – Т. 41, № 3. – С. 461-471
Серия/номер : 41;3
Аннотация : Статья посвящена взаимосвязанным проблемам выделения единиц знаний из множества (корпуса) тематических текстов анализом релевантности исходной фразе и полноты отражения в исходных фразах выделяемого фактического знания. Данные проблемы актуальны для построения систем обработки, анализа, оценивания и понимания информации. Конечной практической целью здесь является поиск наиболее рационального варианта передачи смысла средствами заданного естественного языка для последующей фиксации фрагментов знаний в тезаурусе и онтологии предметной области. При этом релевантность текста по описываемому фрагменту знания (включая формы выражения в языке) определяется совместным использованием оценки силы связи встречающихся в его фразах сочетаний слов исходной фразы и разбиением этих слов на классы по значению меры TF-IDF относительно текстов корпуса. В настоящей работе рассматривается расширение связей слов от традиционных биграмм до трёх и более элементов для выделения составляющих образа исходной фразы в виде сочетаний связанных по смыслу слов (с привлечением базы известных синтаксических отношений и без использования таковой). С целью более полного описания выделяемого в текстах корпуса фрагмента экспертного знания вводятся в рассмотрение совокупности исходных фраз, взаимно эквивалентных либо дополняющих друг друга по смыслу и представляющих единый образ. По сравнению с поиском составляющих рассматриваемого образа на готовом синтаксически размеченном текстовом корпусе предложенный метод позволяет в среднем в 17 раз сократить выход фраз, не релевантных исходным ни по описываемому фрагменту знания, ни по языковым формам его выражения.
URI (Унифицированный идентификатор ресурса) : https://dx.doi.org/10.18287/2412-6179-2017-41-3-461-471
http://repo.ssau.ru/handle/Zhurnal-Komputernaya-optika/Vydelenie-znanii-i-yazykovyh-form-ih-vyrazheniya-na-mnozhestve-tematicheskih-tekstov-analizom-svyazei-slov-v-sostave-ngramm-65836
Другие идентификаторы : Dspace\SGAU\20171030\65836
ГРНТИ: 28.23.11
28.23.15
20.23.19
Располагается в коллекциях: Журнал "Компьютерная оптика"

Файлы этого ресурса:
Файл Описание Размер Формат  
410320.pdf312.55 kBAdobe PDFПросмотреть/Открыть



Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.