Preprocessing

Очистка информации в базах данных.

Одной из важных задач, решаемых при переносе информации в хранилища данных, является их очистка. С одной стороны, данные загружаются постоянно из различных источников, поэтому вероятность попадания "грязных (замусоренных) данных" весьма высока, с другой — хранилища данных используются для принятия решений и "грязные данные" могут стать причиной принятия неверных решений. Таким образом, процедура очистки является обязательной при переносе и сохранении данных. Ввиду большого спектра возможных несоответствий в данных их очистка считается одной из самых крупных проблем в технологии хранилищ данных. Основные проблемы очистки данных можно классифицировать по следующим уровням:

уровень ячейки таблицы;
уровень записи;
уровень таблицы базы данных;
уровень одиночной базы данных;
уровень множества баз данных.

Рассмотрим перечисленные уровни и соответствующие им проблемы более подробно.

Уровень ячейки таблицы. На данном уровне задача очистки заключается в анализе и исправлении ошибок в данных, хранящихся в ячейках таблиц базы данных. К таким ошибкам можно отнести следующие.

Орфографические ошибки (опечатки) — ошибки, возникающие при вводе информации. Они могут привести к неправильному пониманию, а также к искажению реальных данных. Например, при продаже товара вместо количества 1000 было введено 10 000 или вместо названия товара "Водка" было введено название "Вода".
Отсутствие данных — происходят из-за отсутствия у оператора соответствующих данных при вводе информации. Главной задачей OLTP-систем является обеспечение ежедневных операций с данными, поэтому оператор может пропустить ввод неизвестных ему данных, а не тратить время на их выяснение. Как следствие, в базах данных могут оставаться незаполненные ячейки (содержащие значение NULL).
Фиктивные значения — значения, введенные оператором, но не имеющие смысла. Наиболее часто такая проблема встречается в полях, обязательных для заполнения, но при отсутствии у оператора реальных данных он вынужден вводить бессмысленные данные. Например: номер социального страхования 999-99-9999, или возраст клиента 999, или почтовый индекс 99999. Проблема усугубляется, если существует вероятность появления реальных данных, которые могут быть приняты за фиктивные. Например, номер мобильного телефона 000-00-0000 для указания на отсутствие мобильного телефона у клиента или месячный доход в размере 999,999.99 для указания на то, что клиент имеет работу.
Логически неверные значения — значения, не соответствующие логическому смыслу, вкладываемому в данное поле таблицы. Например, в поле "Город" находится значение "Иван" или в поле "температура больного" значение 10.
Закодированные значения — сокращенная запись или кодировка реальных данных, используемая для уменьшения занимаемого места.

Составные значения — значения, содержащие несколько логических данных в одной ячейке таблицы. Такая ситуация возможна в полях произвольного формата (например, строковых или текстовых). Проблема усугубляется, если отсутствует строгий формат записи информации в такие поля.

Уровень записи. На данном уровне возникает проблема противоречивости значений в разных полях записи, описывающей один и тот же объект предметной области. Например: для человека возраст не соответствует году рождения: age = 22, bdate = 12.02.50.

Уровень таблицы базы данных. На данном уровне возникают проблемы, связанные с несоответствием информации, хранящейся в таблице и относящейся к разным объектам. На этом уровне наиболее часто встречаются нижеприведенные проблемы.

Нарушение уникальности.Значения, соответствующие уникальным атрибутам разных объектов предметной области, являются одинаковыми.
Отсутствие стандартов. Из-за отсутствия стандартов на формат записи значений могут возникать проблемы, связанные с дублированием данных или их противоречивостью:

дублирующиеся записи (один и тот же человек записан в таблицу два раза, хотя значения полей уникальны):
empl=(name="Петро Петренко",. . . ) ; emp2=(name="П.Петренко", ...) ;
противоречивые записи (об одном человеке в разных случаях введена разная информация о дате рождения, хотя значения полей уникальны):
empl=(name="Петро Петренко", bdate=12.02.70); emp2=(name="П.Петренко", bdate=12.12.70).

Уровень одиночной базы данных. На данном уровне, как правило, возникают проблемы, связанные с нарушением целостности данных.

Уровень множества баз данных. На данном уровне возникают проблемы, связанные с неоднородностью как структур баз данных, так и хранящейся в них информации. Можно выделить следующие основные проблемы этого уровня:

различие структур баз данных: различие наименований полей, типов, размеров и др.;
в разных базах данных существуют одинаковые наименования разных атрибутов;
в разных базах данных одинаковые данные представлены по-разному;
в разных базах данных классификация элементов разная;
в разных базах данных временная градация разная;
в разных базах данных ключевые значения, идентифицирующие один и тот же объект предметной области, разные и т. п.

При решении задачи очистки данных, прежде всего, необходимо отдавать себе отчет в том, что не все проблемы могут быть устранены. Возможны ситуации, когда данные не существуют и не могут быть восстановлены, вне зависимости от количества приложенных усилий.
Встречаются ситуации, когда значения настолько запутаны или найдены в стольких несопоставимых местах с такими на вид различными и противоположными значениями одного и того же факта, что любая попытка расшифровать такие данные может породить еще более неверные результаты, и, возможно, лучшим решением будет отказ от их обработки. На самом деле не все данные нужно очищать. Как уже отмечалось, процесс очистки требует больших затрат, поэтому те данные, достоверность которых не влияет на процесс принятия решений, могут оставаться неочищенными.

В целом, очистка данных включает несколько этапов:

выявление проблем в данных;
определение правил очистки данных;
тестирование правил очистки данных;
непосредственная очистка данных.

Выявление проблем в данных. Для выявления подлежащих удалению видов ошибок и несоответствий необходим подробный анализ данных. Наряду с ручной проверкой следует использовать аналитические программы. Существует два взаимосвязанных метода анализа: профайлинг данных и Data Mining.

Профайлинг данных ориентирован на грубый анализ отдельных атрибутов данных. При этом происходит получение, например, такой информации, как тип, длина, спектр значений, дискретные значения данных и их частота, изменение, уникальность, наличие неопределенных значений, типичных строковых моделей (например, для номеров телефонов) и др., что позволяет обеспечить точное представление различных аспектов качества атрибута.

Data Mining помогает найти специфические модели в больших наборах данных, например отношения между несколькими атрибутами. Именно на это направлены так называемые описательные модели Data Mining, включая группировку, обобщение, поиск ассоциаций и последовательностей. При этом могут быть получены ограничения целостности в атрибутах. Например, функциональные зависимости или характерные для конкретных приложений бизнес-правила, которые можно использовать для восполнения утраченных и исправления недопустимых значений, а также для выявления дубликатов записей в источниках данных. Например, правило объединения с высокой вероятностью может предсказать проблемы с качеством данных в элементах данных, нарушающих это правило. Таким образом, 99 % вероятность правила:

"итого = количество х единиц" демонстрирует несоответствие и потребность в более детальном исследовании для 1 % записей.

Определение правил очистки данных. В зависимости от числа источников данных, степени их неоднородности и загрязненности, они могут требовать достаточно обширного преобразования и очистки. Первые шаги по очистке данных могут скорректировать проблемы отдельных источников данных и подготовить данные для интеграции. Дальнейшие шаги должны быть направлены на интеграцию данных и устранение проблем множественных источников.

На этом этапе необходимо выработать общие правила преобразования, часть из которых должна быть представлена в виде программных средств очистки.

Тестирование правил очистки данных. Корректность и эффективность правил очистки данных должны тестироваться и оцениваться, например, в копиях данных источника. Это необходимо для выяснения необходимости корректировки правил с целью их улучшения или исправления ошибок.

Этапы определения правил и их тестирование могут выполняться итерационно несколько раз, например, из-за того, что некоторые ошибки становятся заметны только после определенных преобразований.

Непосредственная очистка данных. На этом этапе выполняются преобразования в соответствии с определенными ранее правилами. Очистка выполняется в два приема. Сначала устраняются проблемы, связанные с отдельны ми источниками данных, а за тем — проблемы множества баз данных. Над отдельными данными выполняются следующие процедуры.

Расщепление атрибутов — данная процедура извлекает значения из атрибутов свободного формата для повышения точности представления и поддержки последующих этапов очистки, таких, как сопоставление элементе данных и исключение дубликатов. Необходимые на этом этапе преобразования перераспределяют значения в поле для получения возможности перемещения слов и извлекают значения для расщепленных атрибутов.

Проверка допустимости и исправления — данная процедура исследует каждый элемент данных источника на наличие ошибок. Обнаруженные ошибки автоматически исправляются (если это возможно). Проверка на наличие орфографических ошибок выполняется на основе просмотра словаря. Словари географических наименований и почтовых индексов помогают корректировать адресные данные. Атрибутивные зависимости (дата рождения -возраст, общая стоимость — цена за шт., город — региональный телефонный код и т. д.) могут использоваться для выявления проблем и замены утраченных или исправления неверных значений.

Стандартизация —данная процедура преобразует данные в согласованный и унифицированный формат, что необходимо для их дальнейшего согласования и интеграции. Например, записи о дате и времени должны быть оформлены в специальном формате, имена и другие символьные данные должны конвертироваться либо в прописные, либо в строчные буквы и т. д. Текстовые данные могут быть сжаты и унифицированы с помощью выявления основы (шаблона), удаления префиксов, суффиксов и вводных слов. Более того, аббревиатуры и зашифрованные схемы подлежат согласованной расшифровке с помощью специального словаря синонимов или применения предопределенных правил конверсии.

После того как ошибки отдельных источников удалены, очищенные данные должны заменить загрязненные данные в исходных данных. Это необходимо для повышения качества данных и исключения затрат на очистку при повторном использовании. После завершения преобразований над данными из отдельных источников можно приступать к их интеграции. При этом выполняются следующие процедуры.

Сопоставление данных, относящихся к одному элементу— данная процедура устраняет противоречивость и дублирование данных из разных источников, относящихся к одному объекту предметной области. Для сопоставления записей из разных источников используются идентификационные атрибуты или комбинация атрибутов. Такими атрибутами могут выступать общие первичные ключи или другие общие уникальные атрибуты. К сожалению, без таких атрибутов процесс сопоставления данных затруднителен.
Слияние записей — данная процедура объединяет интегрированные записи, относящиеся к одному объекту. Объединение выполняется, если информация из разных записей дополняет или корректирует одна другую.
Исключение дубликатов — данная процедура удаляет дублирующие записи. Она производится либо над двумя очищенными источниками одновременно, либо над отдельным, уже интегрированным набором данных. Исключение дубликатов требует, в первую очередь, выявления (сопоставления) похожих записей, относящихся к одному и тому же объекту реального окружения.
Очищенные данные сохраняются и могут использоваться для анализа и принятия на их основе решений. За формирование аналитических запросов к данным и представление результатов их выполнения в системах принятия решения отвечают подсистемы анализа. От вида анализа также зависит и непосредственная реализация структур хранения данных.

Масштабирование (шкалирование) данных

Нормализующие преобразования.

Ортогонализация и декорреляция входных векторов.

Нормирование и приведение к единой шкале увеличивают информативность данных. Однако этого оказывается недостаточно. Известно, что если факторы статистически зависимы, то их совместная энтропия меньше суммы энтропий отдельных факторов.
При достижении статистической независимости входов будет достигнута максимальная информационная насыщенность каждого из входных факторов в отдельности. Для достижения статистической независимости входов используется линейное преобразование, которое осуществляет декорреляцию входных векторов. Алгоритм декорреляции называется ещё "выбеливание входов" (whitening).
Рассмотрим вычислительную сущность метода. Пусть входные векторы \(X_j,j=1,2,…,n\) представлены в виде матрицы X.

X₁	X₂	X₃	...	X_n-1	X_n
x_1,1	x_1,2	x_1,3	...	x_1,n-1	x_1,n
x_2,1	x_2,2	x_2,3	...	x_2,n-1	x_2,n
...	...	...	...	...	...
x_m,1	x_m,2	x_m,3	...	x_m,n-1	x_m,n

Тогда \(x_{i,j}\) означает \(i-\)й компонент вектора \(X_j\). Входные векторы будем рассматривать как случайные коррелированные векторы. Преобразуем входные векторы в центрированные, то есть в векторы с нулевым математическим ожиданием. Для этого вычислим матрицу \(\dot{X}=[\dot{X}_1,...,\dot{X}_n]\), где \(\dot{x}_{i,j}=x_{i,j}-\bar{x}_j,i=1,2,...,m,j=1,2,...,n\), то есть вычитаем из элементов каждого столбца его среднее значение \[ \bar{x}_j=\frac{1}{m}\sum_{i=1}^mx_{i,j},j=1,2,...,n. \] Вычислим ковариационную матрицу. Ковариационная матрица K— это квадратная матрица размера \(m\times m\), образованная из попарных ковариаций m компонентов каждого вектора. Элементы ковариационной матрицы равны (используем несмещенную оценку) \[ k_{i,j}=\frac{1}{n-1}\sum_{s=1}^n(x_{i,s}-\bar{x}_i)(x_{j,s}-\bar{x}_j)= \frac{1}{n-1}\sum_{s=1}^n\dot{x}_{i,s}\dot{x}_{j,s}, i,j=1,2,...,m, \] где \(n—\) количество входных векторов, \(m—\) число компонентов векторов.
Ковариационную матрицу удобно рассматривать, используя скалярные произведения центрированных входных векторов \[ k_{i,j}=\frac{1}{n-1}\left(\dot{X}_i,\dot{X}_j\right)=\frac{1}{n-1}\dot{X}^T_i\dot{X}_j, \] где \((X_iX_j)=X_i^TX_j\) — скалярное произведение векторов \(X_i\) и \(X_j\).
Тогда ковариационная матрица запишется в виде \(K=\frac{1}{n-1}\dot{X}\dot{X}^T\), где \(\dot{X}=[\dot{X}_1,...,\dot{X}_n]\) — матрица центрированных векторов.
Матрица K является симметричной и положительно определенной матрицей размером \(m\times m \).
Матрица \(\tilde{X}\), составленная из преобразованных некоррелированных векторов, получается из исходной матрицы \(\dot{X}\) линейным преобразованием \(\tilde{X}=W^T\dot{X}\), где \(W=[w_1w_2..w_m]\), \(w_i,i=1,2,...,m \) — собственные векторы матрицы K. Задача на собственные значения для матрицы K имеет вид \(Kw_i=\lambda_iw_i,i=1,2,...,m\), где \(\lambda_i\) и \(w_i\) — собственные числа и соответствующие собственные векторы матрицы K.
В результате преобразования столбцы матрицы \(\dot{X}\) преобразуются в некоррелированные столбцы матрицы \(\tilde{X}\). Матрица ковариации для \(\tilde{X}\) представляет собой диагональную матрицу, с диагональю из дисперсий столбцов матрицы \(\tilde{X}\). Известно, что эти дисперсии равны соответствующим собственным числам матрицы K. Зачастую векторы исходных данных преобразуют в некоррелированные векторы с единичной дисперсией по формуле \[ \tilde{X}=S^{-1}W^T\dot{X} \] где \(S=diag[\lambda_1\lambda_2...\lambda_m]\).
Полученные векторы будут не только некоррелированными, но и ортогональными. Действительно, два случайных вектора \(X_i\) и \(X_j\) называют некоррелированными, если \(M(X^T_iX_j)=M(X^T_i)M(X_j)\) и ортогональными, если \(M(X^T_iX_j)=0\) (здесь M обозначает вычисление математического ожидания). В нашем случае центрированных векторов, у которых математическое ожидание равно нулю, некоррелированность векторов означает их ортогональность.
Важно!! В результате ортогонализации совместная энтропия входных векторов увеличивается, поскольку распределение элементов в обучающем множестве выравнивается и становится ближе к равномерному. Но поскольку преобразованные входные векторы представлены в другой системе координат, то теряется привычный физический смысл их компонентов.
Декорреляция связана с сингулярным разложением ковариационной матрицы. Учитывая симметрию матрицы K, получаем \(K=WSW^{-1}\), где \(S\)— диагональная матрица, на диагонали которой расположены собственные значения \(\lambda_1, \lambda_2,...,\lambda_m\) матрицы K; W — ортогональная матрица, столбцы которой являются собственными векторами матрицы K. Ортогональность матрицы W означает ортогональность ее столбцов и равенство обратной матрицы транспонированной: \(W^{-1}=W^T\). Ортогональность столбцов означает, что они образуют базис.
Матрица \(\tilde{X}\), составленная из преобразованных некоррелированных векторов, и исходная матрица \(\dot{X}\) связаны соотношением \(WS\tilde{X}=\dot{X}\), откуда \(\tilde{X}=S^{-1}W^{-1}\dot{X}=S^{-1}W^{T}\dot{X}\).
Здесь учтено свойство ортогональной матрицы \(W^{-1}=W^T\). Так как матрица \(S\) диагональная то, обратная матрица легко вычисляется.

Процесс отбеливания уменьшает количество независимых переменных и, кроме того, может также уменьшить размерность задачи, игнорируя компоненты, соответствующие очень малым собственным значениям (PCA).

Очистка данных

Восстановление отсутствующих данных.

Пациент	Уровень глюкозы (ммоль/л)	Базофилы (%)	Эозинофилы (%)	Палочко-ядерные нейрофилы (%)	Сегментоядерные нейрофилы(%)	Лимфоциты (%)	Моноциты (%)	СОЭ (мм/ч)	Лейкоциты (10⁹/л)	Эритроциты (10¹²/л)	Гемоглобин (г/л)
1	4.9	0.22	2.72	1.54	57.4	35.0	5.72	16.18	6.7	4.61	137.2
2	4.8	0.15	2.50	1.34	55.3	31.7	5.53	13.8	6.1	4.48	134.8
3	7.35	0.16	1.2	4.3	65.6	24.01	4.83	21.08	9.13	4.59	133.6
4	3.45	0.5	2.5	1.5	56.5	36.0	5.0	8	6.8	5.0	145.5
5	5.0	0.33	3.05	1.7	59.0	38.2	6.11	18.65	7.3	4.7	141.0
6	3.01	1.2	2.45	1.33	54.3	52.0	6.0	20.1	8.1	5.0	120.3
7	4.5	0.21	2.70	1.6	58.4	36.0	5.62	16.8	6.55	4.67	140.3

Респондент	Від уряду	Від обласної ради	Від місцевої ради
1	4	4	5
2	3	3	4
3	2	2	4
4	0	4	4
5	3	3	0
6	2	2	3
7	3	3	2
8	0	4	5
9	4	4	4
10	0	0	5

Дата	Цена	Откр.	Макс.	Мин.	Объём	Изм. %
Окт. '18	150,95	164,46	165,85	145,64	-	-8,21%
Сент. '18	164,46	173,50	173,89	158,87	500,47M	-6,41%
Авг. '18	175,73	173,93	188,30	170,27	549,02M	1,83%
Июль '18	172,58	193,37	218,62	166,56	652,76M	-11,19%
Июнь '18	194,32	193,06	203,55	186,43	387,27M	1,32%
Май '18	191,78	172,00	192,72	170,23	401,14M	11,50%
Апр. '18	172,00	157,81	177,10	150,51	751,13M	7,64%
Март '18	159,79	179,01	186,10	149,02	996,23M	-10,39%
Февр. '18	178,32	188,22	195,32	167,18	516,62M	-4,59%
Янв. '18	186,89	177,68	190,66	175,80	495,66M	5,91%
Дек. '17	176,46	176,03	182,28	169,01	317,10M	-0,41%
Нояб. '17	177,18	182,36	184,25	174,00	351,00M	-1,60%
Окт. '17	180,06	171,39	180,80	168,29	318,15M	5,38%
Сент. '17	170,87	172,40	174,00	161,56	304,83M	-0,64%
Авг. '17	171,97	169,82	173,05	165,00	303,62M	1,61%
Июль '17	169,25	151,72	175,49	147,80	419,91M	12,10%
Июнь '17	150,98	151,75	156,50	144,56	414,76M	-0,32%
Май '17	151,46	151,74	153,60	144,42	403,66M	0,81%
Апр. '17	150,25	141,93	151,53	138,81	275,59M	5,77%
Март '17	142,05	136,47	142,95	136,08	342,10M	4,80%
Февр. '17	135,54	132,25	137,18	130,30	384,70M	4,01%
Янв. '17	130,32	116,03	133,14	115,51	379,00M	13,27%
Дек. '16	115,05	118,38	122,50	114,00	408,73M	-2,85%

Preprocessing

Предварительная обработка данных.

Зачем нужна предварительная обработка?

Очистка информации в базах данных.

Масштабирование (шкалирование) данных

Нормализующие преобразования.

Ортогонализация и декорреляция входных векторов.

Очистка данных

Восстановление отсутствующих данных.

Как обрабатывать пропущенные значения.

Метод исключения некомплектных объектов тривиален.

Методы с заполнением.

Заполнение средними.

Заполнение по \(k-\)ближайшим соседям.

Заполнение с помощью регрессии.

Bootstrap.

Обнаружение выбросов и влиятельных наблюдений.

Использование линейной регрессии для обнаружения выбросов.

Показатель воздействия наблюдения или «разбалансировка» (Leverage) и его центрированный вариант (Centered leverage)

Стандартная ошибка остатка (Standard error of residual)

Обнаружение выбросов (Outliers).

Стандартизованный остаток

Внутренний стьюдентизированный остаток (Internally studentized residual)

Внешний стьюдентизированный остаток

Расчёт статистик влияния (Influence Statistics)

Расстояние Махаланобиса (Mahalanobis distance).

Расстояние Кука (Cook’s distance).

Ковариационное отношение (CovRatio)

Меры DFFIT и стандартизованное DFFITS

Сглаживание данных.

Условие окончания сглаживания данных

Алгоритмы сглаживания повышенной точности

Задачи для самостоятельной работы.

Задача 1.

Задача 2.

Задача 3.

Задачи на выбор:

Полезная литература. Книги.

Полезная литература. Статьи.

Вопрос-ответ.

x_i
y_i
Y_i

x_i
y_i
Y_(i)
E_i

x_i
h_i
h_i^*

x_i
Y_i
Y_(i)
DEFIT_i
DEFITS_i