Отрывок: Алгоритм продолжается до тех пор, пока состав кластеров не перестанет меняться. В результате данные по вакансиям разбились по кластерам так, как показано на рисунках 1-3. Для того чтобы заполнить отсутствующие строки, было использовано среднее значение по второму кластеру (рисунок 4), в который попали сферы «Работа на дому» и «Временная работа». Таким образом, можно предположить, что в среднем за неделю публиковалось ...
Название : Методы устранения неполноты данных при онлайн- мониторинге рынка труда
Другие названия : Methods for rebuilding incomplete data in online labor market monitoring
Авторы/Редакторы : Гиоргашвили, В.С.
Бакаев, М.А.
Giorgashvili, V.S.
Bakaev, M.A.
Ключевые слова : data quality
missing data
web- scraping
labor market
k-mean
Дата публикации : 2018
Издательство : Новая техника
Библиографическое описание : Гиоргашвили В.С. Методы устранения неполноты данных при онлайн- мониторинге рынка труда / Гиоргашвили В.С., Бакаев М.А. // Сборник трудов IV международной конференции и молодежной школы «Информационные технологии и нанотехнологии» (ИТНТ-2018) - Самара: Новая техника, 2018. - С.2716-2721
Аннотация : Проблема неполноты данных достаточно актуальна, в том числе при сборе онлайн-данных. Возможными причинами неполноты данных могут быть: ошибки и изменения на площадках-источниках данных, сбои и ошибки в работе инструментов, осуществляющих сбор данных, и т.д. В результате чего при анализе данных имеем неполный массив. Поскольку для осуществления анализа наличие пропусков в данных обычно нежелательно, то возникает выбор: отбросить неполные данные или заполнить недостающие значения. Второе, как правило, является предпочтительным решением, однако важно выбрать подходящий метод устранения пропусков в данных, не приводящий к искажению результатов. В данной статье представлен обзор современных методов устранения неполноты данных. В задаче заполнения пропусков в онлайн данных по рынку труда был использован метод k-средних. The problem of incomplete data is quite relevant, including when collecting online data. Possible reasons for incompleteness can be: errors and changes at the sites-the sources of data, failures and errors in the instruments for collecting data, etc. With the result that at the stage of data analysis have an incomplete array. Because the analysis is the presence of missing data is usually undesirable, there is the choice to discard incomplete data or fill in missing values. Second, as a rule, is the preferred solution, however, it is important to choose a suitable method of eliminating the missing data, not distorting the results. This paper presents a review of modern methods of elimination of incompleteness of the data and describes the application of the method of k-means to fill the gaps in the online data on the labor market.
URI (Унифицированный идентификатор ресурса) : http://repo.ssau.ru/handle/Informacionnye-tehnologii-i-nanotehnologii/Metody-ustraneniya-nepolnoty-dannyh-pri-onlain-monitoringe-rynka-truda-69620
Другие идентификаторы : Dspace\SGAU\20180518\69620
Располагается в коллекциях: Информационные технологии и нанотехнологии

Файлы этого ресурса:
Файл Описание Размер Формат  
paper_366.pdfосновная статья173.75 kBAdobe PDFПросмотреть/Открыть



Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.