data mining - lecture 6 - 2014

24
ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ Data Mining Харьковский национальный университет имени В. Н. Каразина Факультет компьютерных наук Подготовил: доцент каф. искусственного интеллекта и программного обеспечения, к.ф.-м. н. Гахов Андрей Владимирович 2014/2015 уч. год

Upload: andrii-gakhov

Post on 27-Jun-2015

211 views

Category:

Education


4 download

DESCRIPTION

Data Mining - lecture 6 - 2014

TRANSCRIPT

Page 1: Data Mining - lecture 6 - 2014

ИНТЕЛЛЕКТУАЛЬНЫЙАНАЛИЗ ДАННЫХ

Data Mining

Харьковский национальный университет имени В. Н. КаразинаФакультет компьютерных наук

Подготовил:доцент каф. искусственного интеллекта и программного обеспечения,к.ф.-м. н. Гахов Андрей Владимирович2014/2015 уч. год

Page 2: Data Mining - lecture 6 - 2014

ЛЕКЦИЯ 4Подготовка данных (preprocessing). Часть 2

Page 3: Data Mining - lecture 6 - 2014

РЕДУКЦИЯ ДАННЫХ

Page 4: Data Mining - lecture 6 - 2014

Редукция данных (data reduction) применяется для получения меньшего по объему представления данных, которое сохраняет все свойства исходного набора данных (эквивалетный набор данных).

Работа с меньшими по объему данными увеличивает возможности анализа, в то время как результат анализа (почти) не отличается от анализа исходных данных.

Основные методы редукции данных:• Уменьшение размерности• Компактное представление данных• Сжатие данных

Page 5: Data Mining - lecture 6 - 2014

УМЕНЬШЕНИЕ РАЗМЕРНОСТИ

• Методы уменьшения размерности данных направлены в первую очередь на уменьшение количества рассматриваемых случайных переменных или атрибутов.

• Некоторые из основных методов:• Вейвлет-преобразования• Метод главных компонент (PCA)• Выделение подмножества атрибутов

Page 6: Data Mining - lecture 6 - 2014

УМЕНЬШЕНИЕ РАЗМЕРНОСТИВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ

• Дискретное вейвлет-преобразование (ДВП) это метод линейной обработки сигнала, который преобразует исходный вектор X в некоторый вектор той же длины X´, состоящий из вейвлет-коэффициентов

• Если мы получаем вектор той же длины, тогда в чем состоит уменьшение размерности?

• Само по себе вейвлет-преобразование не уменьшает размерность. Однако, благодаря его свойствам, в векторе X´ можно отбросить часть элементов (положив их равными 0), оставив только самые значимые из них (например, большие некоторого порогового значения).

• Полученный вектор X´´ будет содержать большое количество нулевых элементов (т.е. можно оптимизировать вычисления), а применив к нему обратное ДВП все еще можно будет восстановить исходный вектор X (с некоторой ошибкой)

Page 7: Data Mining - lecture 6 - 2014

УМЕНЬШЕНИЕ РАЗМЕРНОСТИМЕТОД ГЛАВНЫХ КОМПОНЕНТ

• Метод главных компонент (principal component analysis, PCA) - один из основных способов уменьшения размерности данных, потеряв наименьшее количество информации

• Для исходного набора данных D с n атрибутами (т.е. рассматриваемого в n-мерном пространстве) PCA производит поиск k главных компонент - n-мерных ортогональных векторов (k≤n), чтобы величина отклонений начальных данных была минимальна

• Метод позволяет уменьшить размерность данных путем построения их проекции на пространство меньшей размерности, определяемого найденным базисом из векторов главных компонент

Page 8: Data Mining - lecture 6 - 2014

УМЕНЬШЕНИЕ РАЗМЕРНОСТИМЕТОД ГЛАВНЫХ КОМПОНЕНТ

• ПРИМЕР: рассмотрим набор данных с 2 атрибутами (т.е. в 2-мерном пространстве):

x2

x1

x2

x1

p1

p1

p1 - главная компонента

Page 9: Data Mining - lecture 6 - 2014

УМЕНЬШЕНИЕ РАЗМЕРНОСТИВЫБОР ПОДМНОЖЕСТВА АТРИБУТОВ

• Данные могут содержать множество атрибутов, однако важными для рассматриваемой задачи могут быть лишь некоторые из них

• ПРИМЕР: пусть по каждому покупателю в книжном магазине хранится 3 атрибута - возраст, любимый жанр и номер телефона. Очевидно, что в задаче прогнозирования возможного спроса на новую книгу, атрибут номер телефона не является атрибутом , влияющим на результат

Page 10: Data Mining - lecture 6 - 2014

УМЕНЬШЕНИЕ РАЗМЕРНОСТИВЫБОР ПОДМНОЖЕСТВА АТРИБУТОВ

• Целью выбора подмножества атрибутов состоит в поиске и исключению атрибутов, не относящихся к рассматриваемой задаче или оказывающих минимальное влияние

• Как известно, для множетва из n атрибутов существует 2n возможных подмножества , поэтому задача поиска оптимального подмножества не тривиальна

• Выбор атрибута в подмножество основывается, как правило, на некотором статистическом тесте

Page 11: Data Mining - lecture 6 - 2014

КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ• Данные методы заменяют исходный набор данных на альтернативную (но меньшую по размеру) форму представления данных.

• Основые семейства методов:• Параметрические• Непараметрические

• В параметрических методах строится некоторая модель, описывающая исходный набор данных, и следовательно набор данных может быть описан за счет параметров этой модели. Сюда относятся регрессия и логарифмически линейная модель

• Непараметрические методы, как правило, основаны на аггрегации данных и рассмотрении более высоких уровней абстракции. К таким методам относятся гистограмма, методы кластеризации, семплинг (построение выборок) и OLAP-куб

Page 12: Data Mining - lecture 6 - 2014

КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХРЕГРЕССИЯ

• Регрессия позволяет по величине одного или нескольких атрибутов находить ожидаемые значения другого атрибута

• Линейная регрессия - это простейший алгоритм регресии , заключающийся в построении линейной функции, наиболее точно (в смысле некоторой функции ошибки) приближающей имеющиеся данные

• Линейная регрессия может быть одномерной и многомерной

Page 13: Data Mining - lecture 6 - 2014

КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХОДНОМЕРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

• Предположим, что исходный набор данных имеет вид

hθ (x) = θ0 +θ1x

• Задача линейной регрессии состоит в построении линейной модели зависимости величин yk используя значения xk. Для случая одной переменной такая зависимость моделируется в виде уравнения прямой:

xk , yk{ }, k = 1…N

• Следовательно, нам необходимо найти такие параметры θ0 и θ1, чтобы как можно более точно выполнялось:

hθ (xk ) = θ0 +θ1x

k ≈ yk , k = 1…N

Page 14: Data Mining - lecture 6 - 2014

КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХОДНОМЕРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

• Используя метод наименьших квадратов (МНК), ошибку моделирования всех исходных данных функцией hθ(x) можно оценить при помощи квадратичной функции ошибок (функции невязки)

error(k,θ ) = hθ (xk )− yk

• Оптимальные значений параметров θ0 и θ1 могут быть найдены из условия минимальности общей ошибки:

• Ошибка приближения функцией hθ(x) каждого отдельного значения yk будет равна:

J θ( ) = 12N

hθ (xk )− yk( )2

k=1

N

J θ0∗,θ1

∗( ) = minθJ θ( ) = min

θ0 ,θ1

12N

θ0 +θ1xk − yk( )2

k=1

N

Page 15: Data Mining - lecture 6 - 2014

КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХОДНОМЕРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

• Решение данной задачи оптимизации может быть выполнено по методу градиентного спуска, представляющего собой итерационный процесс поиска экстремума функции с помощью движения вдоль направления антиградиента

• На каждом шаге метода мы “подстраиваем” найденные параметры по формулам

θ0 := θ0 −α∂∂θ0

J θ0,θ1( ) = θ0 −α 1N

θ0 +θ1xk − yk( )

k=1

N

θ1 := θ1 −α∂∂θ1

J θ0,θ1( ) = θ1 −α 1N

θ0 +θ1xk − yk( ) ⋅ xk

k=1

N

⎢⎢⎢⎢⎢

где α - некоторое положительное число, влияющее на скорость сходимости метода (определяет скорость движения)

Page 16: Data Mining - lecture 6 - 2014

ЗАДАНИЯ• Значения атрибутов рост (см) и вес (кг) для студентов группы имею вид:

• Необходимо:• вычислить коэффициенты линейной регрессии• вычислить невязку на каждом шаге метода градиентного спуска• построить график изменения невязки с каждым шагом метода градиентного спуска. Что можно контролировать, наблюдая за данным графиком?

• использовать значения α = 0.01, 1.0, 10.0 На что влияет данный параметр?

• вычислить итоговую невязку для найденного уравнения регрессии• построить диаграмму рассеяния и прямую линию регрессии

рост вес рост вес рост вес рост вес рост вес

185 77 163 68 173 82 193 70 175 83

170 66 188 82 180 84 183 79 165 66

183 75 185 74 178 100 175 77 178 67

183 77 165 61 183 84 183 70 188 95

175 76 185 77 188 84 185 76 178 63

Page 17: Data Mining - lecture 6 - 2014

КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХСАМПЛИНГ

• Самплинг (samling) заключается в замене исходного набора данных D меньшим набором данных (выборка), выбранного случайным образом

• Преимуществом методов самплинга при редукции данных состоит том, что цена получения выборки пропорциональна размеру выборки (а не размеру N исходного набора данных D)

• Другие методы редукции данных, как правило, требуют как минимум одного полного просмотра всех исходных данных D

Page 18: Data Mining - lecture 6 - 2014

КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХМЕТОДЫ САМПЛИНГА

• Простая случайная выборка без замен Выборка получается путем случайного выбора M наблюдений из общего числа N наблюдений в исходном наборе данных D (M<N) с равной вероятностью попадания в выборку каждого наблюдения• Простая случайная выборка с заменами Отличается от выборки без замен тем, что выбранное наблюдение “возвращается” в исходный набор данных и может быть выбрано еще раз

T1T2T3T4T5T6T7T8

T6T8T3T2

T5T8T5T2Простая случайная выборка с заменами

Простая случайная выборка без замен

N=8, M=4

Page 19: Data Mining - lecture 6 - 2014

КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХМЕТОДЫ САМПЛИНГА

• Кластерная выборка Если наблюдения в исходном наборе данных D сгруппированы в K непересекающихся групп, тогда можно сделать выборку из M кластеров (M<K) применив алгоритм простой случайной выборки на уровне кластеров• ПРИМЕР. При запросе к базе данных выдача информации может разбиваться на страницы (например, по 100 записей), которые и могут рассматриваться в качестве кластеров

T1T2T3…

T100

T201

T901

T601T602T603…

T700

T301

Простая случайная выборка без замен

N=1000, K=9, M=2

Page 20: Data Mining - lecture 6 - 2014

КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХМЕТОДЫ САМПЛИНГА

• Стратифицированная выборка Если исходный набор данных D разделен (например, по некоторому признаку) на некоторое количество непересекающихся частей (страт, strata), тогда можно сделать выборку из каждой страты, применив алгоритм простой случайной выборки.Стратифицированная выборка обеспечивает наличие в ней представителей из каждой страты, даже если некоторые страты достаточно малы (асимметрическое распределение)

FordFordFordFord

ChevroletChevroletChevroletChevroletChevroletChevrolet

Range RoverRange Rover

T12T57T186T711T12T215T632T715T800T803T24T75

FordFord

ChevroletChevroletChevrolet

Range Rover

T12T711T215T12T632T75

Простая случайная выборка без замен

Page 21: Data Mining - lecture 6 - 2014

КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХOLAP-КУБ

• OLAP (англ. online analytical processing) это технология обработки данных, заключающаяся в подготовке суммарной (агрегированной) информации на основе больших массивов данных, структурированных по многомерному принципу

• OLAP-куб (куб данных) это форма многомерного массива данных, предназначенная для хранения и быстрого доступа к предварительно вычисленным и агрегированным данным

Page 22: Data Mining - lecture 6 - 2014

КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХПРИМЕР: OLAP-КУБ

2011 2012 2013 2014год

Ф1Ф2Ф3Ф4

филиал

марка

Ford

BMW

VW

Opel

119

100

182

365

Ф1 Ф2 Ф3 Ф4

Ford 50 25 35 9 119

BMW 46 52 0 2 100

VW 93 12 45 32 182

Opel 188 42 5 130 365

377 131 85 173

377

13185

173

50

46

93

188

25

52

12

42

35

0

45

5

9

2

32

130

2D-разрез за 2014 год

2014

Page 23: Data Mining - lecture 6 - 2014

СЖАТИЕ ДАННЫХ

• Сжатие данных подразумевает применение некоторого алгоритма преобразования для получения уменьшенного (сжатого) набора данных из исходного набора

• Методы уменьшения размерности и алгоритмы к ом п а к т н о г о п р е д с т а в л е н и я д а н н ы х мо г у т рассматриваться также как частные случаи сжатия данных

• Существуют два в корне различающихся подхода к сжатию данных:• Сжатие без потерь• Сжатие с потерями

Page 24: Data Mining - lecture 6 - 2014

СЖАТИЕ С ПОТЕРЯМИ И БЕЗ ПОТЕРЬ• Сжатие без потерь предусматривает преобразование представления набора данных таким образом, чтобы затем можно было в точности воспроизвести первоначальный набор данных путем обратного преобразования.

• Сжатие с потерями – это представление, которое позволяет воспроизводить нечто «очень похожее» на первоначальный набор данных.

• Преимущество использования методов сжатия с потерями заключается в том, что они позволяют получать более компактные представления данных по сравнению с методами сжатия без потерь.

• ПРИМЕР: Алгоритм MP3 реализует сжатие аудиоданных с потерями, а Dolby TrueHD - сжатие без потерь.