data mining - lecture 5 - 2014

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ

Data Mining

Харьковский национальный университет имени В. Н. Каразина Факультет компьютерных наук

Подготовил: доцент каф. искусственного интеллекта и программного обеспечения, к.ф.-м. н. Гахов Андрей Владимирович 2014/2015 уч. год

ЛЕКЦИЯ 4Подготовка данных (preprocessing). Часть 1

ОЧИСТКА ДАННЫХ

!

К задачам анализа данных применим принцип GIGO (Garbage In, Garbage Out) - “мусор на входе - мусор на выходе”, поэтому предварительная обработка и очистка данных является одним из важнейших этапов

Очистка данных включает в себя: • исправление несоответствий в данных • заполнение недостающих значений • сглаживание шумов и выделение аномалий

Несоответствия могут быть вызваны такими факторами как человеческие ошибки, использование одинаковых кодов для различных данных, ошибок при интеграции данных, умышленно неверными значениями или просто устаревшими данными

Этапы обнаружения несоответствий в данных: • узнать больше о данных, определить типы, возможные значения и характеристики атрибутов.

• поиск несоответствий в представлении данных (например, в Европе используется 2014/09/14, а в США 2014/14/09)

• поиск перегрузки полей, когда вместо определения нового атрибута, был расширен уже существующий атрибут за счет заполнения неиспользуемых в нем значений

• проверка данных по правилам валидации данных

ОБНАРУЖЕНИЕ НЕСООТВЕТСТВИЙ

Правила валидации данных: • Правило уникальности Каждое возможное значение данного атрибута должно отличаться от всех других значений этого атрибута • Правило последовательности Не должно быть отсутствующих возможных значений между минимальным и максимальным значениями данного атрибута и все такие значения должны быть уникальными • Правило для пустых значений Пустые значения могут принимать разную форму - пробел, знак(и) вопроса, специальные символы и т.п. Правило для пустых значений требует наличия единого подхода к обозначению таких значений (например, 0 для числовых значений, пустая строка - для текстовых)

РАБОТА С НЕДОСТАЮЩИМИ ЗНАЧЕНИЯМИ• Исключение (игнорирование) набора данных В данном случае теряется информация, которую несут значения остальных атрибутов исключаемого набора данных. Метод применим когда в наборе большое количество атрибутов с недостающими данными или когда общее количество данных достаточно велико

• Заполнение недостающих значений вручную Как правило, может применяться при очень малом количестве пропущенных данных

• Использование глобальной константы В данном случае все недостающие значения заменяются на NA или -∞. Обрабатывающая программа должна уметь отличать данные значения от реальных значений, которые принимает атрибут

!

• Использование мер центральной тенденции Для симметричного (нормального) распределения данных проп ущенные з н а ч ени я мо г у т з аменя т ь с я с р е д н им арифметическим, а для асимметрического целесообразно использовать медиану. Значительным усовершенствованием данного метода может быть вычисление среднего (или медианы) не по всему набору данных, а по подмножеству данных одного класса или входящих в один кластер

• Использование наиболее вероятного значения Для нахождения наиболее вероятного значения может использоваться регресионный анализ, Байесовские методы, деревья принятия решения и др.

• Как правило, предпочтение должно отдаваться методу, который позволит получить в будущем максимально точный анализ за приемлемое время !

• Некоторые атрибуты не оказывают существенного влияния на результаты анализа, поэтому замена недостающих значений константой NA будет более предпочтительна, чем вычисление наиболее вероятного значение методом линейной регресии !

• Не всегда отсутствующие значения являются недостающими. Отсутствие значения для атрибута может означать отсутствие данного атрибута (например, пустой ответ в анкете на вопрос “Кличка вашей собаки”, если у вас нет собаки)

РАБОТА С ЗАШУМЛЕННЫМИ ДАННЫМИШум - случайная ошибка или отклонение значений в анализируемых данных. Для борьбы с шумом применяются различные методы сглаживания данных, например: • Биннинг данных Диапазон значений атрибута разбивается на некоторое количество интервалов (называемых, бинами или bins) где применяется один из методов сглаживания данных, заменяя все попавшие в интервал значения на некоторую общую характеристику или значение . В качестве такой характеристики может выступать одна из мер центральной тенденции (например, среднее) или одно из крайних значений интервала. Как правило, чем шире интервалы, тем больше эффект от сглаживания данных, но и больше потеря данных.

РАБОТА С ЗАШУМЛЕННЫМИ ДАННЫМИ• Регрессионный анализ На основе зашумленных значений атрибута строится регресионная кривая (при линейной регрессии - прямая) и все значения заменяются на соответствующие значения на регресионной кривой !

!

!

!

!

!

• Анализ аномалий Аномалии могут быть найдены, например, путем кластеризации данных, когда значения не попавшие в кластеры считаются аномальными

2

6

10

14

18

2 4,25 6,5 8,75 11

ПРИМЕР:Пример: пусть атрибут зарплата принимает следующие значения (тыс. грн): 3.0, 3.6, 4.7, 5.0, 5.2, 5.2, 5.6, 6.0, 6.3, 7.0, 7.0, 11.0 Проведем биннинг данных с 3-я бинами и в качестве общего значения для данных, попавших в бин, выберем их среднее арифметическое:

Bin1: 3.0, 3.6, 4.7, 5.0 (среднее 4.075) Bin2: 5.2, 5.2, 5.6, 6.0 (среднее 5.5)Bin3: 6.3, 7.0, 7.0, 11.0 (среднее 7.825)

В итоге значения атрибута зарплата будут (тыс. грн): 4.075, 4.075, 4.075, 4.075, 5.5, 5.5, 5.5, 5.5, 7.825, 7.825, 7.825, 7.825

ИНТЕГРАЦИЯ ДАННЫХ

• Очень часто задачи анализа данных требуют интеграции данных - объединения данных из различных источников данных (например, из баз данных, тестовых файлов и т.п. разных подразделений компании)

• Качественная интеграция поможет уменьшить или избежать повторений и несоответствий в данных

ПРОБЛЕМА ИДЕНТИФИКАЦИИ ОБЪЕКТА“Как идентифицировать объекты в разных наборах данных, представляющие одни и те же объекты во внешнем мире?” • Использование эквивалентности характеристик атрибутов Предполагается, что атрибуты с одинаковыми характеристиками (имя, тип, диапазон значений и т.п.) представляют одинаковые объекты. Иногда вместо требования полной эквивалентности, допускается совпадение некоторого случайно выбраного подмножества характеристик • Использование эквивалентности, заданной пользователем Данный подход требует, чтобы пользователь предоставил таблицы эквивалентности атрибутов (что не всегда возможно) • Использование эвристического подхода Данный подход применяется когда нет другой информации, позволяющей принять решение об эквивалентности объектов . Как правило , подразумевается применение методов статистического анализа

КОНФЛИКТ ЗНАЧЕНИЙ• Несмотря на правильную идентификацию объекта, при интеграции данных могут возникать конфликты значений их атрибутов

• Например , в качестве значений для атрибута температура в одном наборе данных используется шкала Цельсия, а в другом - Фаренгейта

• Поэтому, при идентификации объектов необходимо следить и за характеристиками объединяемых атрибутов, иначе интеграция данных приведет к несоответствию данных

ИЗБЫТОЧНОСТЬ ДАННЫХ• Атрибут является избыточным, если он может быть получен из одного или нескольких других атрибутов

• Неправильная идентификация объекта или непоследовательность в именовании атрибутов могут служить источником избыточности данных

• Избыточность данных может быть обнаружена путем проведения корреляционного анализа. Корреляционный анализ помогает измерять насколько сильно один атрибут влияет на другой

НОМИНАТИВНЫЕ АТРИБУТЫ

• Рассмотрим задачу определения корреляции между двумя номинативными атрибутами x и y

• Пусть атрибут x принимает N различных значений x1, x2, … xN, а атрибут y принимает M различных значений y1, y2, … yM

• Наблюдаемые частоты пар значений атрибутов (xk, yk) могут быть представлены следующей таблицей сопряжённости:

χ 2КРИТЕРИЙ

…

… … … … …

x1x2

xN

y1 y2 yMf1,1 f1,2 f1,M f1,•f2,1 f2,2 f2,M f2,•

fN ,1 fN ,2 fN , M fN ,•f•,1 f•,2 f•,M

Статистика критерия согласия Пирсона определяется соотношением:

где fij - наблюдаемые частоты, а gij - ожидаемые частоты

χ 2 =fij − gij( )2gij2

j=1

M

∑i=1

N

∑

χ 2

gij =fi, • + f•, j

n, n = fi, •

i=1

N

∑ = f •, jj=1

M

∑Как видно, наибольший вклад в статистику вносят пары с наблюдаемой частотой наиболее отличающейся от ожидаемой.

Критерия согласия Пирсона проверяет гипотезу, что x и y являются независимыми (0-гипотеза) и следовательно корреляция отсутствует. Тест основан на уровне значимости с (N-1)x(M-1) степенями свободы, который может быть определен из статистических таблиц.

χ 2

Пример: был проведен опрос среди 1500 владельцев животных. У каждого человека спросили: Кто им больше нравится - собаки или кошки? Неоходимо оценить корреляцию между двумя атрибутами: пол и любимое животное. Наблюдаемые частоты:

собаки кошкимужчины 250 200 450женщины 50 1000 1050

300 1200

Ожидаемые частоты вычисляются по формулам, например, , тогда статистика равна

g12 =450 ⋅12001500

= 360

χ 2 =250 − 90( )290

+50 − 210( )2210

+200 − 360( )2360

+1000 − 840( )2

840= 507.93

Задача имеет (2-1)x(2-1)=1 степень свободы и согласно статистической таблице для отклонения 0-гипотезы на уровне значимости 0.1% необходимо, чтобы статистика превысила уровень 10.828. Следовательно, наши величины (сильно) зависимы для данной группы людей

ЧИСЛЕННЫЕ АТРИБУТЫДля численных атрибутов зависимость может быть определена через коэффициент корреляции Пирсона

rx,y =xk − x( ) yk − y( )

k=1

n

∑n ⋅σ x ⋅σ y

=xk ⋅ yk

k=1

n

∑n ⋅σ x ⋅σ y

− x ⋅ yσ x ⋅σ y

где n - число пар (xk, yk) в рассматриваемом наборе данных

Очевидно, что−1≤ rx,y ≤ +1

Два атрибута положительно коррелируют между собой, еслии отрицательно коррелируют, еслиrx,y > 0 rx,y < 0

Если , тогда атрибуты независимы и корреляция отсутствует

rx,y = 0

Другой важной мерой линейной зависимости двух численных атрибутов является ковариация (ковариационный момент):

Cov(x, y) = 1n xk − x( ) yk − y( )k=1

n

∑Ковариация и коэффициент корреляции связаны между собой: rx,y =

Cov(x, y)σ x ⋅σ y

У двух атрибутов наблюдается положительная корреляция, если и отрицательная корреляция, если

Cov(x, y) > 0Cov(x, y) < 0

Если ковариация равна нулю, то атрибуты являются независимыми (обратно утверждение не верно).

Пример: для двух различных товаров в течении нескольких недель измерялась цена (в евро).

Товар1 Товар2неделя 1 12 30неделя 2 15 10неделя 3 8 20неделя 4 4 6неделя 5 6 9

Необходимо оценить возможную зависимость цен на данные товары в рассматриваемый период.

x = 12 +15 + 8 + 4 + 65

= 455

= 9

y = 30 +10 + 20 + 6 + 95

= 755

= 15

Cov(x, y) = 12 ⋅30 +15 ⋅10 + 8 ⋅20 + 4 ⋅6 + 6 ⋅95

− 9 ⋅15 = 7485

−135 = 14.6

Таким образом, ковариация положительная, поэтому мы можем сделать заключение о наличие зависимости между ценами на данные два товара в рассматриваемый период.

ЗАДАНИЯ• Значения атрибутов рост (см) и вес (кг) для студентов группы представлены в таблице:

!

!

!

• Необходимо: • выявить несоответствия в данных и исправить их • заполнить недостающие значение одним из известных методов • сгладить данные при помощи биннинга данных с 4 бинами • вычислить коэффициент корреляции и корреляционный момент • оценить наличие или отсутствие линейной зависимости между данными атрибутами

рост вес рост вес рост вес рост вес рост вес

185 77 163 68 173 82 193 - 175 83

170 188 82 180 84 183 79 165 66

183 75 185 74 178 NA 175 77 178 67

183 77 165 61 183 84 183 70 не знаю 95

175 76 185 77 84 188 185 76 178 63

data mining - lecture 5 - 2014

Education

n x y x y x y n xk

nxk x y

y x n x1

n covx

gij gij

fij gij

xk yknk

x1x2 xny1 y2 ymf1