Поиск частых множеств признаков (товаров) и...

65
Разработка данных и машинное обучение Частые множества признаков и ассоциативные правила Игнатов Дмитрий Игоревич Big Data Startup Accelerator Program – развитие компетентностей в создании инновационных продуктов и бизнесов в сфере Больших Данных Совместная инициатива корпорации SAP и innovationStudio MSU FE НИУ ВШЭ Факультет компьютерных наук Департамент анализа данных и искусственного интеллекта 14 марта 2015 (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 1 / 63

Upload: dmitrii-ignatov

Post on 16-Jul-2015

188 views

Category:

Data & Analytics


8 download

TRANSCRIPT

Page 1: Поиск частых множеств признаков (товаров) и ассоциативные правила

Разработка данных и машинное обучениеЧастые множества признаков и ассоциативные

правила

Игнатов Дмитрий Игоревич♦

«Big Data Startup Accelerator Program» – развитие компетентностей в созданииинновационных продуктов и бизнесов в сфере Больших Данных

Совместная инициатива корпорации SAP и innovationStudio MSU FE

♦НИУ ВШЭФакультет компьютерных наук

Департамент анализа данных и искусственного интеллекта

14 марта 2015

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 1 / 63

Page 2: Поиск частых множеств признаков (товаров) и ассоциативные правила

Содержание

1 Основная частьВведениеНапоминание определений АФП

2 Прикладные задачи и экспериментыПоиск (почти)дубликатов Интернет-документовТаксономии групп пользователей веб-сайтовРекомендация контекстной рекламы

3 Программные средства

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 2 / 63

Page 3: Поиск частых множеств признаков (товаров) и ассоциативные правила

Введение

KDD & Data MiningData mining основной этап при обнаружении знаний в базах данных(Knowledge Discovery in Databases)

Поиск ассоциативных правил (association rules) и частых множеств признаков(frequent itemset mining) одни из ключевых методов Data Mining

Исходная задача — анализ потребительской корзины

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 3 / 63

Page 4: Поиск частых множеств признаков (товаров) и ассоциативные правила

Анализ Формальных Понятий[Wille, 1982], [Ganter,1999]

G — множество объектов, M — множество признаков

отношение I ⊆ G×M , такое что gIm, тогда и только тогда, когда объект gобладает признаком m.

K = (G,M, I) называется формальным контекстом.

Операторы Галуа: A ⊆ G, B ⊆M

A′ = {m ∈M | gIm для всех g ∈ A}, B′ = {g ∈ G | gIm для всех m ∈ B}.

Формальное понятие есть пара (A,B): A ⊆ G, B ⊆M, A′ = B, B′ = A.

A называется (формальным) объемом, а B называется (формальным) содержаниемпонятия (A,B).

Понятия, упорядоченные отношением (A1, B1) ≥ (A2, B2) ⇐⇒ A1 ⊇ A2,образуют полную решетку, называемую решеткой понятий B(G,M, I).

Оператор (·)′′ является оператором замыкания (идемпотентен, монотонен,экстенсивен)

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 4 / 63

Page 5: Поиск частых множеств признаков (товаров) и ассоциативные правила

АФП: пример контекста и решетки понятийМодели и методы Алгоритм трикластеризации Эксперименты Заключение

АФП: пример контекста и решетки понятий

({1,2,3,4},∅)

({1,4},{d}) ({2,3,4},{c}) ({1,2},{a})

({3,4},{b,c})

({1},{1}�)

(∅,M)

({4},{4}�) ({2},{2}�)

G \ M a b c d

1 × ×

2 × ×

3 × ×

4 × × ×

a – ровно 3 вершины,b – ровно 4 вершины,c – имеет прямой угол,d – все стороны равны

8

Треугольники

Прямоугольный треугольник

Равносторонние фигуры Прямоугольные

фигуры

Прямоугольныечетырехугольники

Квадрат

Равносторонний треугольник

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 5 / 63

Page 6: Поиск частых множеств признаков (товаров) и ассоциативные правила

Импликации на подмножествах признаков

ОпределениеИмпликация A→ B, где A,B ⊆M , имеет место если A′ ⊆ B′, т.е.каждый объект, обладающий всеми признаками из множества A,также обладают всеми признаками из множества B.

ОпределениеИмпликации удовлетворяют правилам Армстронга:

X → X,

X → Y

X ∪ Z → Y,

X → Y, Y ∪ Z →W

X ∪ Z →W,

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 6 / 63

Page 7: Поиск частых множеств признаков (товаров) и ассоциативные правила

Основные определения

Определение 1Пусть дан контекст K := (G,M, I), где G — множество объектов, M — множествопризнаков (items), I ⊆ G×MАссоциативным правилом контекста K называется выражение вида A→ B, гдеA,B ⊆M .

Часто требуют A ∩B = ∅

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 7 / 63

Page 8: Поиск частых множеств признаков (товаров) и ассоциативные правила

Основные определения

Определение 2Поддержкой (support) ассоциативного правила A→ B называется величинаsupp(A→ B) = |(A∪B)′|

|G| .

Значение supp(A→ B) показывает какая доля объектов G содержит A ∪B. Часто

поддержку выражают в %.

Определение 3Достоверностью (confidence) ассоциативного правила A→ B называется величинаconf(A→ B) = |(A∪B)′|

|A′| .

Значение conf(A→ B) показывает какая доля объектов обладающих A также содержит

A ∪B. Величину поддержки также часто выражают в %.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 8 / 63

Page 9: Поиск частых множеств признаков (товаров) и ассоциативные правила

Основные определения

Определение 2Поддержкой (support) ассоциативного правила A→ B называется величинаsupp(A→ B) = |(A∪B)′|

|G| .

Значение supp(A→ B) показывает какая доля объектов G содержит A ∪B. Часто

поддержку выражают в %.

Определение 3Достоверностью (confidence) ассоциативного правила A→ B называется величинаconf(A→ B) = |(A∪B)′|

|A′| .

Значение conf(A→ B) показывает какая доля объектов обладающих A также содержит

A ∪B. Величину поддержки также часто выражают в %.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 8 / 63

Page 10: Поиск частых множеств признаков (товаров) и ассоциативные правила

Основные определения

Определение 4Множество признаков F ⊆M называется частым множествомпризнаков если supp(F ) ≥ min_supp.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 9 / 63

Page 11: Поиск частых множеств признаков (товаров) и ассоциативные правила

Пример

Объектно-признаковая таблица транзакцийПокупатели/товары Пиво Пряники Молоко Мюсли Чипсы

С1 1 0 0 0 1С2 0 1 1 1 0С3 1 0 1 1 1С4 1 1 1 0 1С5 0 1 1 1 1

supp({Пиво, Чипсы}) = 3/5

supp({Пряники, Мюсли } → { Молоко }) ==

|({Пряники, Мюсли}∪{Молоко})′||G| = |{C2,C5}|

5= 2/5

conf({Пряники, Мюсли } → { Молоко }) ==

|({Пряники, Мюсли}∪{Молоко})′||{Пряники, Мюсли}′| = |{C2,C5}|

|{C2,C5}| = 1

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 10 / 63

Page 12: Поиск частых множеств признаков (товаров) и ассоциативные правила

Постановка задачи

Поиск ассоциативных правил, min-confidence и min-supportТребуется найти все ассоциативные правила контекста, для которых значенияподдержки и достоверности превышают некоторые установленные значения,min_supp и min_conf соответственно [Agrawal, et al., 1993].

Ассоциативные правила и импликацииАссоциативные правила при значениях min_supp = 0% и min_conf = 100%являются импликациями рассматриваемого контекста.

Иногда ассоциативные правила записывают в форме Ac−→s

B, c и s —

confidence и support данного правила соответственно.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 11 / 63

Page 13: Поиск частых множеств признаков (товаров) и ассоциативные правила

Поиск ассоциативных правил

Этапы поиска1 Нахождение частых множеств признаков (frequent itemsets), т.е. множеств

признаков с поддержкой не ниже заданой (min_supp).2 Построение ассоциативных правил на основе найденных частых множеств

признаков.

Первый шаг наиболее трудоемкий, второй шаг тривиальный.

Классический алгоритм, строящий частые множества признаков — Apriori[Agrawal, Srikant, 1994]

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 12 / 63

Page 14: Поиск частых множеств признаков (товаров) и ассоциативные правила

АФП мирно встречает Data MiningAgrawal R., RSFDGrC – 2011, Москва

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 13 / 63

Page 15: Поиск частых множеств признаков (товаров) и ассоциативные правила

Антимонотонность

Свойство 1 (антимонотонность)Для ∀A,B ⊆M и A ⊆ B ⇒ supp(B) ≤ supp(A)

Ключевое свойство при нахождении многоэлементных частых множествпризнаков

С ростом размера множества его поддержка уменьшается, либо не изменяется

Поддержка любого множества признаков не превышает минимальнойподдержки любого его подмножества

Множество признаков размера n будет частым, тогда и только тогда, когдавсе его (n− 1)-элемнтные подмножества будут частыми

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 14 / 63

Page 16: Поиск частых множеств признаков (товаров) и ассоциативные правила

Алгоритм AprioriОписаниенаходит все частые множества признаков

Алгоритм 1.1. Apriori(Context,min_supp)

input: Context− набор данных,min_supp− минимальная поддержкаoutput: все частые множества признаков IF

C1 ← {1-itemsets}i← 1while (Ci 6= ∅)

do

SupportCount(Ci)Fi ← {f ∈ Ci |f.support ≥ min_supp}//F − частые множества признаковCi+1 ← AprioriGen(Fi)//C − кандидатыi++

IF ←⋃Fi

return (IF )

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 15 / 63

Page 17: Поиск частых множеств признаков (товаров) и ассоциативные правила

Процедура AprioriGenОписаниедля i-элементных частых множеств признаков порождает их (i+ 1)-надмножества ивозвращает только множество потенциально частых кандидатов

Алгоритм 1.2. AprioriGen(Fi)

input: Fi − частые множества признаков длины ioutput: Ci+1 − потенциальные кандидаты частых множеств признаков

insert into Ci+1 // объединениеselect p[1], p[2], ..., p[i], q[i]from Fip, Fiqwhere p[1] = q[1], ..., p[i− 1] = q[i− 1], p[i] < q[i]for each c ∈ Ci+1 // удаление

do

S ← (i− 1)-элементые подмножества cfor each s ∈ S

do{

if (s 6∈ Fi)then Ci+1 ← Ci+1 \ c

return (Ci+1)

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 16 / 63

Page 18: Поиск частых множеств признаков (товаров) и ассоциативные правила

Пример работы AprioriGen

Шаги объединение и исключениеF3 = {{a, b, c}, {a, b, d}, {a, c, d}, {a, c, e}, {b, c, d}}C4 = {{a, b, c, d}, {a, c, d, e}} — шаг объединениеC4 = {{a, b, c, d}} , исключаем {a, c, d, e}, т.к. его подмножество{c, d, e} 6∈ F3 — шаг удаление

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 17 / 63

Page 19: Поиск частых множеств признаков (товаров) и ассоциативные правила

Построение правил

Извлечение правил из частых множеств признаковПусть F — частое множество признаков. Фиксируем правило f → F \ f , если

conf(f → F \ f) = supp(F )

supp(f)≥ min_conf

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 18 / 63

Page 20: Поиск частых множеств признаков (товаров) и ассоциативные правила

Построение правил

Свойство 2conf(f → F \ f) = supp(F )

supp(f)имеет минимальное значение, когда s(f) максимально.

Достоверность минимальна, когда посылка правила состоит из одногопризнака. Надмножества такого признака имееют меньшую поддержку, а,значит, и большую достоверность.

Рекурсивная процедура извлечения правил. Начинаем с одноэлементнойпосылки f удовлетворяющей min_conf и min_sup, проверяем всенадмножества для данного F . Иcпользуем обязательно все признаки из F накаждом шаге для построения правила.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 19 / 63

Page 21: Поиск частых множеств признаков (товаров) и ассоциативные правила

Задание

1 С помощью алгоритма Apriori построить все частые множествапризнаков контекста из примера 1 для значения min_sup = 1/3

2 Please, say “I ♥ Apriori”.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 20 / 63

Page 22: Поиск частых множеств признаков (товаров) и ассоциативные правила

Задание

1 С помощью алгоритма Apriori построить все частые множествапризнаков контекста из примера 1 для значения min_sup = 1/3

2 Please, say “I ♥ Apriori”.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 20 / 63

Page 23: Поиск частых множеств признаков (товаров) и ассоциативные правила

Компактное представление частых множеств признаков

Пусть дан контекст K := (G,M, I)

Определение 5Множество признаков FC ⊆M называется частым замкнутыммножеством признаков если supp(FC) ≥ min_supp и не существуетF , такого что F ⊃ FC и supp(F ) = supp(FC).

Определение 6Множество признаков MFC ⊆M называется максимальным частымзамкнутым множеством признаков если оно частое и не существует F ,такого что F ⊃ FMC и supp(F ) ≥ min_supp.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 21 / 63

Page 24: Поиск частых множеств признаков (товаров) и ассоциативные правила

Компактное представление частых множеств признаков

Пусть дан контекст K := (G,M, I)

Утверждение 1MFC ⊆ FC ⊆ F , гдеMFC –– множество максимальных замкнутыхмножеств признаков контекста K, FC –– множество его частыхзамкнутых множеств признаков, а F – множество его частых множествпризнаков для заданной минимальной поддержки min_supp.

Утверждение 2Решетка формальных понятий контекста K изоморфна решетке егочастых замкнутых множеств признаков для заданной минимальнойподдержки min_supp = 0.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 22 / 63

Page 25: Поиск частых множеств признаков (товаров) и ассоциативные правила

Содержание

1 Основная частьВведениеНапоминание определений АФП

2 Прикладные задачи и экспериментыПоиск (почти)дубликатов Интернет-документовТаксономии групп пользователей веб-сайтовРекомендация контекстной рекламы

3 Программные средства

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 23 / 63

Page 26: Поиск частых множеств признаков (товаров) и ассоциативные правила

Постановка задачи

Множество документов в Интернете имеют дубликаты, в связи счем для поисковых систем необходимы средства эффективноговычисления кластеров документов-дубликатов.Предлагается вычислительная модель на основе частыхзамкнутых множеств признаков для поиска кластеров дубликатовс использованием синтаксических методов составления образовдокументов.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 24 / 63

Page 27: Поиск частых множеств признаков (товаров) и ассоциативные правила

Пример

Пример коллекции документов1 Шалтай-Болтай сидел на стене.2 Шалтай-Болтай досиделся на стене.3 Шалтай-Болтай свалился во сне.4 Шалтай-Болтай – это говорящее яйцо.5 Говорящее яйцо свалилось во сне.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 25 / 63

Page 28: Поиск частых множеств признаков (товаров) и ассоциативные правила

Пример

Составим контекст KDW = (D,W, IDW ), где D – множестводокументов, W – всех слов входящих в эти документы, а IDW –отношение, показывающее, что документ d обладает словом w, т.е.dIDWw.

Контекст документов

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 26 / 63

Page 29: Поиск частых множеств признаков (товаров) и ассоциативные правила

Пример

Диаграмма решетки понятий для контекста документов

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 27 / 63

Page 30: Поиск частых множеств признаков (товаров) и ассоциативные правила

Пример

Диаграмма решетки понятий с указанием поддержки

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 28 / 63

Page 31: Поиск частых множеств признаков (товаров) и ассоциативные правила

Пример

Составим дуальный контекст KWD = (W,D, IWD)

Диаграмма решетки понятий дуального контекста

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 29 / 63

Page 32: Поиск частых множеств признаков (товаров) и ассоциативные правила

Пример

Диаграмма решетки понятий дуального контекста

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 30 / 63

Page 33: Поиск частых множеств признаков (товаров) и ассоциативные правила

Шинглирование

[Broder, 1997]Параметры: length, offset и shingle_size.Для d ∈ D, определено отображение F : d 7→ Fd, где Fd ⊆ N –множество отпечатков документа d.π(Fd) перестановка на множестве Fd

Утверждение

P [min{π(FA)} = min{π(FB)}] =|FA ∩ FB||FA ∪ FB|

= sim(A,B)

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 31 / 63

Page 34: Поиск частых множеств признаков (товаров) и ассоциативные правила

Математическая модель на основе АФП

Формальный контекст KDF = (D,F, I), где D – множество документов, а F –множество хеш-кодов (fingerprins), отношение I показывает что некий объект dобладает признаком f в том и только том случае, когда dIf

Для множества документов A ⊆ D множество их общих признаков A′ служитописанием их сходства, а замкнутое множество A′′ является кластером сходныхобъектов

Для произвольного B ⊆ F величина |B′| = |g ∈ G|∀m ∈ B(gIm)| являетсяподдержкой B и обозначается supp(B).

Множество B замкнуто тогда и только тогда когда для любого C ⊃ B имеет местоsupp(C) < supp(B).

Множество B ⊆M называется k-частым если |B′| > k, где k – параметр.

Поиск замкнутых содержаний контекста KFD = (F,D, I), для которых размермножества их общих шинглов превышает заданный порог сходства.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 32 / 63

Page 35: Поиск частых множеств признаков (товаров) и ассоциативные правила

Эксперименты

URL-коллекция РОМИП, состоящая из 52 файлов, общегоразмера 4,04 Гб, разбивалась на несколько частей, включающихот 1 до 24 файлов (приблизительно от 2% до 50% от размеравсей коллекции).

Параметры шинглирования:число слов в шингле – 10, 15 и 20отступ между началом соседних шинглов – 1размер образа документа – 100, 150 и 200.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 33 / 63

Page 36: Поиск частых множеств признаков (товаров) и ассоциативные правила

Программная реализация

1. Парсер формата XML для коллекции ROMIP (предоставлен Яндексом)

2. Снятие html-разметки.

3. Нарезка шинглов с заданными параметрами

4. Хэширование шинглов

5. Составление образа документов путем выбора подмножества (хэш-кодов) шинглов спомощью методов “n минимальных элементов в перестановке” и “минимальныеэлементы в n перестановках”.

6. Составление по результатам методов 4-5 инвертированной таблицы “списокидентификаторов документов – шингл” - подготовка данных к формату программвычисления замкнутых множеств .

7. Вычисление частых замкнутых множеств с заданным порогом общего числадокументов, в которое входит данное множество шинглов: программа MyFim(реализующая алгоритм FPmax*)

8. Сравнение со списком дубликатов РОМИП – программа Comparator.

Блоки 1-6 и 8 реализованы на языке Java, блок 7 – на языке С++, источник –репозиторий FIMI.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 34 / 63

Page 37: Поиск частых множеств признаков (товаров) и ассоциативные правила

Результаты экспериментов

Результаты работы метода “n минимальных элементов вперестановке”

FPmax Все пары дуб-ликатов

Уникальныепары дубли-катов

Общиепары

Вход Порог ROMIP HSE ROMIP HSEb_1_20_s_100_n1-6.txt 100 33267 7829 28897 3459 4370b_1_20_s_100_n1-6.txt 95 33267 11452 26729 4914 6538b_1_20_s_100_n1-6.txt 90 33267 17553 22717 7003 10550b_1_20_s_100_n1-6.txt 85 33267 22052 21087 9872 12180b_1_20_s_100_n1-12.txt 100 105570 15072 97055 6557 8515b_1_20_s_100_n1-12.txt 95 105570 20434 93982 8846 11588b_1_20_s_100_n1-12.txt 90 105570 30858 87863 13151 17707b_1_20_s_100_n1-12.txt 85 105570 41158 83150 18738 22420b_1_20_s_100_n1-24.txt 100 191834 41938 175876 25980 15958b_1_20_s_100_n1-24.txt 95 191834 55643 169024 32833 22810b_1_20_s_100_n1-24.txt 90 191834 84012 155138 47316 36696b_1_20_s_100_n1-24.txt 85 191834 113100 136534 57800 55300

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 35 / 63

Page 38: Поиск частых множеств признаков (товаров) и ассоциативные правила

Результаты экспериментов

Результаты работы метода “минимальные элементы в nперестановках”

FPmax Все пары дуб-ликатов

Уникальныепары дубли-катов

Общиепары

Вход Порог ROMIP HSE ROMIP HSEm_1_20_s_100_n1-3.txt 100 16666 4409 14616 2359 2050m_1_20_s_100_n1-3.txt 95 16666 5764 13887 2985 2779m_1_20_s_100_n1-3.txt 90 16666 7601 12790 3725 3876m_1_20_s_100_n1-3.txt 85 16666 9802 11763 4899 4903m_1_20_s_100_n1-6.txt 100 33267 13266 28089 8088 5178m_1_20_s_100_n1-6.txt 95 33267 15439 26802 8974 6465m_1_20_s_100_n1-6.txt 90 33267 19393 24216 10342 9051

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 36 / 63

Page 39: Поиск частых множеств признаков (товаров) и ассоциативные правила

Результаты экспериментов

алгоритм FPmax*, O(√n log(n))

dataset narod.1.xml – 6941 документ

размер образа документа – 100 шинглов, длина шингла 10, смещение 1 символ.

Время работы, точность и полнота поискаВремя, с Точность Полнота # кластеров F10,098 0,76 0,25 150 0,380,128 0,74 0,29 145 0,420,187 0,70 0,39 140 0,500,276 0,67 0,50 135 0,570,383 0,63 0,57 130 0,600,455 0,58 0,64 125 0,610,559 0,47 0,64 120 0,540,669 0,37 0,67 115 0,480,873 0,29 0,70 110 0,411,045 0,23 0,73 105 0,351,294 0,18 0,69 100 0,29

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 37 / 63

Page 40: Поиск частых множеств признаков (товаров) и ассоциативные правила

Результаты экспериментов

[Karypis, 2003]

Cистема Cluto – алгоритм повторяющихся разбиений на две части (ClusterRB),O(|I|log(k))параметры: косинусная мера сходства, k – число кластеров

dataset narod.1.xml – 6941 документ

Время работы, точность и полнота поискаВремя, с Точность Полнота # кластеров F1

11 0,02 0,90 100 0,04766 0,09 0,78 1000 0,163125 0,19 0,74 2000 0,306402 0,28 0,71 3000 0,4014484 0,64 0,61 5000 0,6319127 0,90 0,35 6000 0,51

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 38 / 63

Page 41: Поиск частых множеств признаков (товаров) и ассоциативные правила

Результаты экспериментов

FPMax* число кластеров из одного документа равно 566, ClusterRB – 4227

FPmax* и Cluto – общее число кластеров 903 против 5000

Число кластеров дубликатов: FPmax* – 337, система Cluto – 773

Сравнение кластеров в терминах пар документов дубликатовчисло пар дубликатов РОМИП: 2997число пар дубликатов FPmax*: 2722число пар дубликатов Cluto: 2897число уникальных пар дубликатов РОМИП: 1155число уникальных пар дубликатов FPmax*: 1001число уникальных пар дубликатов Cluto: 1055число общих пар FPmax* и РОМИП: 1721число общих пар Cluto и РОМИП: 1842

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 39 / 63

Page 42: Поиск частых множеств признаков (товаров) и ассоциативные правила

Постановка задачи

ООО “Мастерхост”, 2006-2007По данным, собираемым счетчиками посещений наИнтернет-сайтах, требуется выявлять интересы аудиториицелевого сайтаПредлагается модель построения таксономий пользователей(аудиторий) веб-сайтов на основе АФП с применением критериевотбора релевантных формальных понятий

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 40 / 63

Page 43: Поиск частых множеств признаков (товаров) и ассоциативные правила

Математическая модель таксономий аудиторийвеб-сайтов

Внешняя таксономияKex = (V, Sex, I), гдеV – множество всех посетителей целевого сайта, Sex – множество всех сайтов выборкиисключая целевой, I – отношение инцидентности vIs, v ∈ V , s ∈ Sex ⇔ когда посетительv “ходил” на сайт s.

Внутренняя таксономияKin = (V, Sin, I), гдеV – множество всех посетителей целевого сайта, Sin – множество всех собственныхстраниц целевого сайта, I — отношение инцидентности vIs, имеющее место для v ∈ V ,s ∈ Sin ⇔ когда посетитель v “ходил” на сайт s.

Понятие – пара (A,B)

A′ = { множество сайтов s ∈ S, которые посещали все посетители v ∈ A} = B

B′ = {множество посетителей v ∈ V , которые посещали все сайты s ∈ B} = A.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 41 / 63

Page 44: Поиск частых множеств признаков (товаров) и ассоциативные правила

Критерии отбора релевантных понятий

Пусть K = (G,M, I) – формальный контекст, (A,B) – некоторое формальное понятие K,тогда

Индекс устойчивостиИндекс устойчивости σ понятия (A,B) определяется выражением

σ(A,B) =|{C ⊆ A|C′ = B}|

2|A| .

Очевидно, что 0 ≤ σ(A,B) ≤ 1.

Решетка-айсбергПоддержка содержания понятия (A,B) определяется выражением supp(A,B) =

|A||G| .

Пусть дано минимальное значение поддержки minsupp ∈ [0, 1], тогда решеткой-айсбергомназовем множество {(A,B)|supp(B) ≥ minsupp}.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 42 / 63

Page 45: Поиск частых множеств признаков (товаров) и ассоциативные правила

Исходные данные

выборка по статистике посещений 10000 сайтов с прилагаемымплоским тематическим каталогом по 59 категориям.сайт университета, сайт Интернет-магазина бытовой техники, сайткрупного банка, сайт автомобильного Интернет-салона.

Формат данныхid; \\id посетителяlast_ts; \\время последнего захода на сайтвfirst_ts; \\ремя первого захода на сайтnum; \\количество совершенных сессий за все время знакомства ссайтом.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 43 / 63

Page 46: Поиск частых множеств признаков (товаров) и ассоциативные правила

Построение внешней таксономииСайт ВШЭ в сентябре 2006 года в терминах посещений новостных ресурсов.

Решетка-айсберг для 25 самых крупных понятий

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 44 / 63

Page 47: Поиск частых множеств признаков (товаров) и ассоциативные правила

Построение внешней таксономииСайт ВШЭ в сентябре 2006 года в терминах посещений новостных ресурсов.

Диаграмма частично упорядоченного множества 25-и самыхустойчивых понятий

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 45 / 63

Page 48: Поиск частых множеств признаков (товаров) и ассоциативные правила

Рекомендация рекламных словосочетаний

1 Разработка и реализация алгоритмов для формированиярекомендаций на массивах Интернет-данных

2 Экспериментальная проверка применимости методов Data Miningдля рекомендательной системы Интернет-рекламы

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 46 / 63

Page 49: Поиск частых множеств признаков (товаров) и ассоциативные правила

Постановка задачи

контекстная Интернет-рекламавыявление рекламных слов, интересных рекламодателюпример — Google AdWords

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 47 / 63

Page 50: Поиск частых множеств признаков (товаров) и ассоциативные правила

Рекомендация рекламных словосочетаний

Исходные данныеДанные о покупках рекламных словосочетаний. Формальный контекстKFT = (F, T, IFT ), F — множество компаний-рекламодателей, T — множестворекламных словосочетаний, fIt означает, что фирма f ∈ F купила словосочетаниеt ∈ T . Размер контекста — 2000× 3000.

Постановка задачиТребуется выявить рынки рекламных слов с целью последующего формированиярекомендаций

Средства решенияАФП: алгоритм D-miner

поиск ассоциативных правил

ассоциативные правила+морфология

ассоциативные правила+онтология

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 48 / 63

Page 51: Поиск частых множеств признаков (товаров) и ассоциативные правила

Рекомендация рекламных словосочетаний: АФП[Besson et al, 2004], D-miner, O(|G|2|M ||L|)

(G,G’)

(M’,M)

(C,D)

(A,B)

(G,G )

D

CA

B

Результаты работы алгоритмаМинимальный размер Минимальный Число

объема понятия размер содержания формальных понятий0 0 8 950 74010 10 3 030 33515 10 759 96315 15 150 98315 20 14 22620 15 661

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 49 / 63

Page 52: Поиск частых множеств признаков (товаров) и ассоциативные правила

Рекомендация рекламных словосочетаний: D-miner

Рынок услуг по размещению сайтов{affordable hosting web, business hosting web, cheap hosting, cheap hosting site web,cheap hosting web, company hosting web, cost hosting low web, discount hosting web,domain hosting, hosting internet, hosting page web, hosting service, hosting servicesweb, hosting site web, hosting web}

Гостиничный бизнес{ angeles hotel los, atlanta hotel, baltimore hotel, dallas hotel, denver hotel, diego hotelsan, francisco hotel san, hotel houston, hotel miami, hotel new orleans, hotel new york,hotel orlando, hotel philadelphia, hotel seattle, hotel vancouver }

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 50 / 63

Page 53: Поиск частых множеств признаков (товаров) и ассоциативные правила

Рекомендация рекламных словосочетаний:ассоциативные правила

[Szathmary, 2005]

система Coron, алгоритм Zart, информативный базис ассоциативных правил

Примеры правилminsupp=30 minconf=0,9

{florist} → {flower} supp=33 [1.65%]; conf=0.92;

{gift graduation} → {anniversary gift}, supp=41 [2.05%]; conf=0.82;

Результаты поиска ассоциацийmin_supp max_supp min_conf max_conf число правил

30 86 0,9 1 101 39130 109 0,8 1 144 043

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 51 / 63

Page 54: Поиск частых множеств признаков (товаров) и ассоциативные правила

Рекомендация рекламных словосочетаний:ассоциативные правила+морфология

t — рекламное словосочетание, t = {w1, w2, . . . , wn}si = stem(wi) — основа слова wi

stem(t) =⋃i

stem(wi) — множество основ словосочетания t

KTS = (T, S, ITS) — формальный контекст, где T — множество всехсловосочетаний, а S — множество основ всех словосочетаний из T , т.е.S =

⋃i

stem(ti)

tIs означает, что во множество основ словосочетания t входит основа s

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 52 / 63

Page 55: Поиск частых множеств признаков (товаров) и ассоциативные правила

Рекомендация рекламных словосочетаний:ассоциативные правила+морфология

Пример контекста KFT для рынка “long distance calling”

фирма \ фраза call calling calling carrier cheapdistance distance distance distance distancelong long long plan long long

f1 x x xf2 x x xf3 x xf4 x x xf5 x x x x

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 53 / 63

Page 56: Поиск частых множеств признаков (товаров) и ассоциативные правила

Рекомендация рекламных словосочетаний:ассоциативные правила+морфология

Пример контекста KTS для рынка“long distance calling”

фраза \ стем call carrier cheap distanc long plancall distance long x x x

calling distance long x x xcalling distance long plan x x x x

carrier distance long x x xcheap distance long x x x

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 54 / 63

Page 57: Поиск частых множеств признаков (товаров) и ассоциативные правила

Рекомендация рекламных словосочетаний:ассоциативные правила+морфология

Примеры

tFT−−→ sITS

i

{last minute vacation} → {last minute travel}Supp= 19 Conf= 0,90

tFT−−→

⋃i

sITSi

{mail order phentermine} →{adipex online order, adipex order, adipex phentermine, . . . ,phentermine prescription, phentermine purchase, phentermine sale}Supp= 19 Conf= 0,95

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 55 / 63

Page 58: Поиск частых множеств признаков (товаров) и ассоциативные правила

Рекомендация рекламных словосочетаний:ассоциативные правила+морфология

Примеры

tFT−−→ (

⋃i

si)ITS

{distance long phone} →{call distance long phone, carrier distance long phone, . . . ,distance long phone rate, distance long phone service}Supp= 37 Conf= 0,88

t1FT−−→ t2, такие что tITS

2 ⊆ tITS1

{ink jet} → {ink}, Supp= 14 Conf= 0,7

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 56 / 63

Page 59: Поиск частых множеств признаков (товаров) и ассоциативные правила

Рекомендация рекламных словосочетаний:ассоциативные правила+морфология

min_conf = 0.5

Проверка качества правилТип правила Среднее Среднее Число

значение supp значение conf правил

tFT−−→ sITS

i 15 0,64 454t

FT−−→⋃i

sITSi 15 0,63 75

tFT−−→ (

⋃i

si)ITS 18 0,67 393

tFT−−→ ti, где tITS

i ⊆ tITS 21 0,70 3922t

FT−−→⋃i

ti, где tITSi ⊆ tITS 20 0,69 673

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 57 / 63

Page 60: Поиск частых множеств признаков (товаров) и ассоциативные правила

Рекомендация рекламных словосочетаний:ассоциативные правила

Результаты скользящего контроля для ассоциативных правил

Число Число average_conf Число average_confправил правил правил с (min_conf=0.5)

с sup > 0 min_conf=0.51 147170 73025 0,77 65556 0,842 69028 68709 0,93 68495 0,933 89332 89245 0,95 88952 0,954 107036 93078 0,84 86144 0,905 152455 126275 0,82 113008 0,906 117174 114314 0,89 111739 0,917 131590 129826 0,95 128951 0,968 134728 120987 0,96 106155 0,979 101346 67873 0,72 52715 0,9210 108994 107790 0,93 106155 0,94

средние 115885 99112 0,87 92787 0,92

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 58 / 63

Page 61: Поиск частых множеств признаков (товаров) и ассоциативные правила

Рекомендация рекламных словосочетаний:ассоциативные правила+онтология

Cоставление онтологии (иерархического каталога)

drug

acid vitamin

B D

Метаправила и соотвествующие им ассоциациисопоставление правилам онтологии ассоциаций

t→ gi(t), где gi(t) — множество понятий онтологии на i уровней выше t

t→ n(t), где n(t) — множество соседних для t понятий онтологии, имеющихобщего предка

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 59 / 63

Page 62: Поиск частых множеств признаков (товаров) и ассоциативные правила

Рекомендация рекламных словосочетаний:ассоциативные правила+онтология

Примеры правилt→ g1(t)

{d vitamin} → {vitamin }, Supp= 19 Conf= 0,90

t→ n(t)

{b vitamin} → { b complex vitamin, b12 vitamin, c vitamin, d vitamin, discountvitamin, e vitamin, herb vitamin, mineral vitamin, multi vitamin, supplementvitamin} Supp= 18 Conf= 0,7

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 60 / 63

Page 63: Поиск частых множеств признаков (товаров) и ассоциативные правила

Содержание

1 Основная частьВведениеНапоминание определений АФП

2 Прикладные задачи и экспериментыПоиск (почти)дубликатов Интернет-документовТаксономии групп пользователей веб-сайтовРекомендация контекстной рекламы

3 Программные средства

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 61 / 63

Page 64: Поиск частых множеств признаков (товаров) и ассоциативные правила

Основные свободно-распространяемые инструменты

SPMF – an open-source data mining mining libraryThe CORON Data Mining PlatformBart Goethals webpage and FIMI repositoryConexp –– решетки понятий, импликации и ассоциативныеправилаOrange – содержит виджеты для поиска частых множествпризнаков и ассоцитивных правил

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 62 / 63

Page 65: Поиск частых множеств признаков (товаров) и ассоциативные правила

Вопросы и контактыwww.hse.ru/staff/dima

Спасибо!

dmitrii.ignatov[at]gmail.com

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 63 / 63