Отрывок: Однако следует обратить внимание, что при хранении данных в формате libsvm число ненулевых признаков у разных объектов и, соответственно, длина разных строк в файле в Науки о данных М.Ю. Курбаков, А.И. Макарова, В.В. Сулимова V Международная конференция и молодёжная школа «Информационные технологии и нанотехнологии» (ИТНТ-2019) 57 общем случае отличается, в связи с чем позиция начала о...
Название : Оптимизация загрузки данных в формате libsvm при решении двухклассовой задачи SVM методом усреднения решающих правил в условиях большой обучающей совокупности
Другие названия : Data load optimization for solving SVM problem via averaging decision rules method for big training sets
Авторы/Редакторы : Курбаков, М.Ю.
Макарова, А.И.
Сулимова, В.В.
Kurbakov, M.U.
Makarova, A.I.
Sulimova, V.V.
Дата публикации : Май-2019
Издательство : Новая техника
Библиографическое описание : Курбаков М.Ю. Оптимизация загрузки данных в формате libsvm при решении двухклассовой задачи SVM методом усреднения решающих правил в условиях большой обучающей совокупности / Курбаков М.Ю., Макарова А.И., Сулимова В.В. // Сборник трудов ИТНТ-2019 [Текст]: V междунар. конф. и молодеж. шк. "Информ. технологии и нанотехнологии": 21-24 мая: в 4 т. / Самар. нац.-исслед. ун-т им. С. П. Королева (Самар. ун-т), Ин-т систем. обраб. изобр. РАН-фил. ФНИЦ "Кристаллография и фотоника" РАН; [под ред. В.А. Фурсова]. - Самара: Новая техника, 2019. – Т. 4: Науки о данных. - 2019. - С. 53-60.
Аннотация : Метод опорных векторов (SVM) является одним из наиболее удобных и эффективных инструментов двухклассового распознавания. Однако существуют некоторые проблемы, препятствующие его применению для обучения в условиях больших объемов данных, в частности, проблема высокой вычислительной сложности процедуры обучения распознаванию и проблема хранения полного набора данных в оперативной памяти. В предыдущей работе нами был предложен метод усреднения решающих правил, направленный на решение первой проблемы, позволяющий быстро найти приближенное, но не сильно отличающееся от точного решение задачи SVM. В данной работе мы предлагаем решение второй проблемы - специализированную схему работы с данными, ориентированную на предложенный нами подход и оптимизирующую работу с памятью в условиях больших объемов данных. Предложенная схема основана на механизме отображения файлов в память и позволяет эффективно осуществлять загрузку произвольных подвыборок объектов из файла в традиционном формате libsvm. Экспериментальное исследование показывает преимущество данной схемы по сравнению с классическими способами работы с данными в том же формате. The Support Vector Machines (SVM) is one of the most convenient and effective instruments of two-class recognition. But there are some problems of its application for training in big data sets. One of these problems is the high computational complexity and the other consists in the necessity to save the full data set in RAM. The first problem can be decided by our decision rule averaging method, which allows us to quickly find an SVM solution that is close to exact. In this paper a specialized data handling scheme is proposed, which allows to avoid a one-time download of the full training set into the RAM. The proposed approach is based on the system mechanism of mapping files into memory and allows us to efficiently load arbitrary subsamples of objects from a file in the libsvm format, providing a significantly higher speed of work on large training sets compared to traditional methods of working with data. The proposed approach can be applied jointly with any incremental training methods that require fast loading from a libsvm file of an arbitrary subsamples of objects.
URI (Унифицированный идентификатор ресурса) : http://repo.ssau.ru/handle/Informacionnye-tehnologii-i-nanotehnologii/Optimizaciya-zagruzki-dannyh-v-formate-libsvm-pri-reshenii-dvuhklassovoi-zadachi-SVM-metodom-usredneniya-reshaushih-pravil-v-usloviyah-bolshoi-obuchaushei-sovokupnosti-75221
Другие идентификаторы : Dspace\SGAU\20190417\75221
Располагается в коллекциях: Информационные технологии и нанотехнологии

Файлы этого ресурса:
Файл Описание Размер Формат  
paper7.pdfОсновная статья851.62 kBAdobe PDFПросмотреть/Открыть



Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.