Автоматизация нечеткого поиска в задаче распознавания старопечатных кириллических текстов

Мокроусов, М.Н.; Mokrousov, M.N.

Отрывок: 3. Сокращение вариантов распознавания символов на основе алгоритма нечеткого поиска Метод сокращения вариантов графического распознавания символов на основе результатов алгоритма нечеткого поиска заключается в оценке релевантности вариантов символов путем вычисления весов каждого варианта символа по таким данным как:  частота встречаемости символа в результатах нечетк...

Название :	Автоматизация нечеткого поиска в задаче распознавания старопечатных кириллических текстов
Другие названия :	Fuzzy search automation in the problem of recognition of old Cyrillic texts
Авторы/Редакторы :	Мокроусов, М.Н. Mokrousov, M.N.
Дата публикации :	Май-2019
Издательство :	Новая техника
Библиографическое описание :	Мокроусов М.Н. Автоматизация нечеткого поиска в задаче распознавания старопечатных кириллических текстов // Сборник трудов ИТНТ-2019 [Текст]: V междунар. конф. и молодеж. шк. "Информ. технологии и нанотехнологии": 21-24 мая: в 4 т. / Самар. нац.-исслед. ун-т им. С. П. Королева (Самар. ун-т), Ин-т систем. обраб. изобр. РАН-фил. ФНИЦ "Кристаллография и фотоника" РАН; [под ред. В.А. Фурсова]. - Самара: Новая техника, 2019. – Т. 4: Науки о данных. - 2019. - С. 158-165.
Аннотация :	В статье описывается вариант решения проблемы выделения слов в старопечатных кириллических текстах после этапа графического распознавания символов на сканированных документах. В статье предложен алгоритм нечеткого текстового поиска с использованием грамматического словаря древнерусского языка, с последующей оценкой полноты и точности результатов поиска. Для оценки релевантности и ранжирования результатов поиска разработана методика расчета ранга варианта распознавания символа на основе метрики TF-IDF. Также в статье представлена программная система автоматизированного поиска слов, представлены результаты экспериментов, доказывающие эффективность разработанных алгоритмов и программ. The article describes a solution to the problem of word allocation in old Cyrillic texts after the stage of graphic character recognition on scanned documents. The article proposes an algorithm for fuzzy text search using the grammatical dictionary of the old Russian language, with the completeness and accuracy of search results evaluate. To assess the relevance and ranking of the search results, a method for calculating the rank of the symbol recognition variant based on the TF-IDF metric is developed. The article also presents a software system of automated word search, presents the results of experiments that prove the effectiveness of the developed algorithms and programs.
URI (Унифицированный идентификатор ресурса) :	http://repo.ssau.ru/handle/Informacionnye-tehnologii-i-nanotehnologii/Avtomatizaciya-nechetkogo-poiska-v-zadache-raspoznavaniya-staropechatnyh-kirillicheskih-tekstov-75638
Другие идентификаторы :	Dspace\SGAU\20190420\75638 Dspace\SGAU\20190422\75638
Располагается в коллекциях:	Информационные технологии и нанотехнологии

Файлы этого ресурса:

Файл	Описание	Размер	Формат
paper21.pdf	Основная статья	432.86 kB	Adobe PDF	Просмотреть/Открыть

Показать полное описание ресурса Просмотр статистики
Поделиться:

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Репозиторий Самарского университета