Отрывок: х правил, оценка (5) 1 2 0 0 2 0 0 1 2 4 0 0 2 0 0 2 3 4 1 0 3 1 0 3 4 2 1 1 0 1 1 0 5 3 0 1 2 0 1 2 6 3 0 0 1 0 0 1 7 3 0 0 1 0 0 2 8 2 1 0 2 1 0 2 9 3 0 0 3 0 0 5 без привлечения базы синтаксических правил, оценка (6) 1 1 0 0 1 0 0 1 2 1 0 0 1 0 0 1 3 2 1 0 1 2 0 1 4 1 0 1 0 0 1 0 5 1 0 1 1 0 1 1 6 10 1 0 4 1 0 3 7 3 0 0 1 0 0 2 8 6 1 0 2 1 0 2 9 2 0 0 2 0 0 4 с привлечением базы синтаксических правил, оценка (5) 1 5 0 0 3 0 0 3 2 2 0 0 1 0 0 1 3 19 0 3 4 0 2 4 4 7 1 0...
Название : | Выделение знаний и языковых форм их выражения на множестве тематических текстов анализом связей слов в составе n-грамм |
Другие названия : | An approach based on analysis of n-grams on links of words to extract the knowledge and relevant linguistic means on subject-oriented text sets |
Авторы/Редакторы : | Михайлов, Д.В. Козлов, А.П. Емельянов, Г.М. |
Ключевые слова : | распознавание образов интеллектуальный анализ данных теория информации тест открытой формы языковое представление экспертных знаний контекстно-зависимое аннотирование поисковое ранжирование документов |
Дата публикации : | Июн-2017 |
Издательство : | Самарский университет |
Библиографическое описание : | Михайлов, Д.В. Выделение знаний и языковых форм их выражения на множестве тематических текстов анализом связей слов в составе n-грамм / Д.В. Михайлов, А.П. Козлов, Г.М. Емельянов // Компьютерная оптика. – 2017. – Т. 41, № 3. – С. 461-471 |
Серия/номер : | 41;3 |
Аннотация : | Статья посвящена взаимосвязанным проблемам выделения единиц знаний из множества (корпуса) тематических текстов анализом релевантности исходной фразе и полноты отражения в исходных фразах выделяемого фактического знания. Данные проблемы актуальны для построения систем обработки, анализа, оценивания и понимания информации. Конечной практической целью здесь является поиск наиболее рационального варианта передачи смысла средствами заданного естественного языка для последующей фиксации фрагментов знаний в тезаурусе и онтологии предметной области. При этом релевантность текста по описываемому фрагменту знания (включая формы выражения в языке) определяется совместным использованием оценки силы связи встречающихся в его фразах сочетаний слов исходной фразы и разбиением этих слов на классы по значению меры TF-IDF относительно текстов корпуса. В настоящей работе рассматривается расширение связей слов от традиционных биграмм до трёх и более элементов для выделения составляющих образа исходной фразы в виде сочетаний связанных по смыслу слов (с привлечением базы известных синтаксических отношений и без использования таковой). С целью более полного описания выделяемого в текстах корпуса фрагмента экспертного знания вводятся в рассмотрение совокупности исходных фраз, взаимно эквивалентных либо дополняющих друг друга по смыслу и представляющих единый образ. По сравнению с поиском составляющих рассматриваемого образа на готовом синтаксически размеченном текстовом корпусе предложенный метод позволяет в среднем в 17 раз сократить выход фраз, не релевантных исходным ни по описываемому фрагменту знания, ни по языковым формам его выражения. |
URI (Унифицированный идентификатор ресурса) : | https://dx.doi.org/10.18287/2412-6179-2017-41-3-461-471 http://repo.ssau.ru/handle/Zhurnal-Komputernaya-optika/Vydelenie-znanii-i-yazykovyh-form-ih-vyrazheniya-na-mnozhestve-tematicheskih-tekstov-analizom-svyazei-slov-v-sostave-ngramm-65836 |
Другие идентификаторы : | Dspace\SGAU\20171030\65836 |
ГРНТИ: | 28.23.11 28.23.15 20.23.19 |
Располагается в коллекциях: | Журнал "Компьютерная оптика" |
Файлы этого ресурса:
Файл | Описание | Размер | Формат | |
---|---|---|---|---|
410320.pdf | 312.55 kB | Adobe PDF | Просмотреть/Открыть |
Показать полное описание ресурса
Просмотр статистики
Поделиться:
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.