| Title: | Непараметрический алгоритм автоматической классификации многомерных статистических данных большого объёма и его применение |
| Other Titles: | A nonparametric algorithm for automatic classification of large multivariate statistical data sets and its application |
| Authors: | Зеньков, И.В. Лапко, А.В. Лапко, В.А. Им, С.Т. Тубольцев, В.П. Авдеенок, В.Л. |
| Issue Date: | Apr-2021 |
| Publisher: | Самарский национальный исследовательский университет имени акад. С.П. Королева |
| Citation: | Зеньков, И.В. Непараметрический алгоритм автоматической классификации многомерных статистических данных большого объёма и его применение / И.В. Зеньков, А.В. Лапко, В.А. Лапко, С.Т. Им, В.П. Тубольцев, В.Л. Авдеенок // Компьютерная оптика. – 2021. – Т. 45, № 2. – С. 253-260. – DOI: 10.18287/2412-6179-CO-801. |
| Series/Report no.: | 45;2 |
| Abstract: | Предлагается непараметрический алгоритм автоматической классификации статистических данных большого объёма. Основу алгоритма составляет процедура оптимальной дискретизации области значений случайной величины. Под классом понимается компактная группа наблюдений случайной величины, соответствующих одномодальному фрагменту плотности вероятности. Рассматриваемый алгоритм автоматической классификации основан на «сжатии» исходной информации на основе декомпозиции многомерного пространства признаков. В результате статистическая выборка большого объёма преобразуется в массив данных, составленный из центров многомерных интервалов дискретизации и соответствующих им частот принадлежности случайных величин. Для обоснования процедуры оптимальной дискретизации используются результаты исследования асимптотических свойств регрессионной оценки плотности вероятности ядерного типа. Из условия минимума среднеквадратического отклонения регрессионной оценки плотности вероятности определяются оптимальные количества интервалов дискретизации области значений одномерной и двухмерной случайных величин. Полученные результаты обобщаются на дискретизацию области значений многомерной случайной величины. Формула оптимальной дискретизации содержит составляющую, которая характеризуется нелинейным функционалом от плотности вероятности. Устанавливается аналитическая зависимость обнаруженной составляющей от коэффициента контрэксцесса одномерной случайной величины. Для независимых компонент многомерной случайной величины определяется методика расчёта оценок оптимального количества интервалов дискретизации случайных величин и их длин. На этой основе разрабатывается непараметрический алгоритм автоматической классификации, который основан на последовательной процедуре проверки близости центров многомерных интервалов дискретизации и соотношений между частотами принадлежности случайных величин из исходной выборки этим интервалам. Для дополнительного повышения вычислительной эффективности предлагаемого алгоритма автоматической классификации используется многопоточный метод его программной реализации. Практическая значимость разработанных алгоритмов подтверждается результатами их применения при обработке данных дистанционного зондирования. |
| URI: | https://dx.doi.org/10.18287/2412-6179-CO-801 http://repo.ssau.ru/jspui/handle/123456789/22787 |
| Appears in Collections: | Журнал "Компьютерная оптика" |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| 450212.pdf | Основная статья | 2.47 MB | Adobe PDF | View/Open |
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.