Отрывок: Алгоритм получает решение размера 𝑘 путем группировки центров с использованием другого известного алгоритма. 23 2 АНАЛИЗ РЕАЛИЗАЦИИ АЛГОРИТМОВ КЛАСТЕРИЗАЦИИ НА ПРОГРАММНОМ КОМПЛЕКСЕ ДЛЯ БОЛЬШИХ ДАННЫХ 2.1 Библиотека Apache Spark Apache Spark — это фреймворк, позволяющий создавать приложения для распределенной обработки данных. Spark предоставляет быструю и универсальную платформу для обработки данных. По сравнению с Hadoop Spark ускоряет работу программ в...
Название : Исследование алгоритма потоковой кластеризации крупноформатных данных
Авторы/Редакторы : Витальев А. В.
Серафимович П. Г.
Проценко В. И.
Министерство образования и науки Российской Федерации
Самарский национальный исследовательский университет им. С. П. Королева (Самарский университет)
Институт информатики
математики и электроники
Дата публикации : 2017
Библиографическое описание : Витальев, А. В. Исследование алгоритма потоковой кластеризации крупноформатных данных : вып. квалификац. работа по спец. "Прикладная математика и информатика" / А. В. Витальев ; рук. работы П. Г. Серафимович; рец. В. И. Проценко ; М-во образования и науки Рос. Федерации, Самар. нац. исслед. ун-т им. С. П. Королева (Самар. ун-т), Ин-т информатики, математики и. - Самара, 2017. - on-line
Аннотация : Объектом исследования являются потоковые алгоритмы кластеризации.Цель работы – исследование и сравнение статического и потокового алгоритмов кластеризации.Разработана распределенная программная реализация рассмотренных методов статической и потоковой кластеризации, инициализации начальных центров кластеров. На тестовых данных был проведен эксперимент, показывающий различия алгоритмов.
Другие идентификаторы : RU\НТБ СГАУ\ВКР20170914110242
Ключевые слова: потоковые данные
потоковый алгоритм кластеризации
статический алгоритм кластеризации
кластеризация
алгоритм инициализации
MLLIB
K-MEANS
APACHE SPARK
Располагается в коллекциях: Выпускные квалификационные работы




Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.