Поиск частых множеств признаков (товаров) и...

Разработка данных и машинное обучениеЧастые множества признаков и ассоциативные

правила

Игнатов Дмитрий Игоревич♦

«Big Data Startup Accelerator Program» – развитие компетентностей в созданииинновационных продуктов и бизнесов в сфере Больших Данных

Совместная инициатива корпорации SAP и innovationStudio MSU FE

♦НИУ ВШЭФакультет компьютерных наук

Департамент анализа данных и искусственного интеллекта

14 марта 2015

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 1 / 63

Содержание

1 Основная частьВведениеНапоминание определений АФП

2 Прикладные задачи и экспериментыПоиск (почти)дубликатов Интернет-документовТаксономии групп пользователей веб-сайтовРекомендация контекстной рекламы

3 Программные средства


Введение

KDD & Data MiningData mining основной этап при обнаружении знаний в базах данных(Knowledge Discovery in Databases)

Поиск ассоциативных правил (association rules) и частых множеств признаков(frequent itemset mining) одни из ключевых методов Data Mining

Исходная задача — анализ потребительской корзины


Анализ Формальных Понятий[Wille, 1982], [Ganter,1999]

G — множество объектов, M — множество признаков

отношение I ⊆ G×M , такое что gIm, тогда и только тогда, когда объект gобладает признаком m.

K = (G,M, I) называется формальным контекстом.

Операторы Галуа: A ⊆ G, B ⊆M

A′ = {m ∈M | gIm для всех g ∈ A}, B′ = {g ∈ G | gIm для всех m ∈ B}.

Формальное понятие есть пара (A,B): A ⊆ G, B ⊆M, A′ = B, B′ = A.

A называется (формальным) объемом, а B называется (формальным) содержаниемпонятия (A,B).

Понятия, упорядоченные отношением (A1, B1) ≥ (A2, B2) ⇐⇒ A1 ⊇ A2,образуют полную решетку, называемую решеткой понятий B(G,M, I).

Оператор (·)′′ является оператором замыкания (идемпотентен, монотонен,экстенсивен)


АФП: пример контекста и решетки понятийМодели и методы Алгоритм трикластеризации Эксперименты Заключение

АФП: пример контекста и решетки понятий

({1,2,3,4},∅)

({1,4},{d}) ({2,3,4},{c}) ({1,2},{a})

({3,4},{b,c})

({1},{1}�)

(∅,M)

({4},{4}�) ({2},{2}�)

G \ M a b c d

1 × ×

2 × ×

3 × ×

4 × × ×

a – ровно 3 вершины,b – ровно 4 вершины,c – имеет прямой угол,d – все стороны равны

8

Треугольники

Прямоугольный треугольник

Равносторонние фигуры Прямоугольные

фигуры

Прямоугольныечетырехугольники

Квадрат

Равносторонний треугольник


Импликации на подмножествах признаков

ОпределениеИмпликация A→ B, где A,B ⊆M , имеет место если A′ ⊆ B′, т.е.каждый объект, обладающий всеми признаками из множества A,также обладают всеми признаками из множества B.

ОпределениеИмпликации удовлетворяют правилам Армстронга:

X → X,

X → Y

X ∪ Z → Y,

X → Y, Y ∪ Z →W

X ∪ Z →W,


Основные определения

Определение 1Пусть дан контекст K := (G,M, I), где G — множество объектов, M — множествопризнаков (items), I ⊆ G×MАссоциативным правилом контекста K называется выражение вида A→ B, гдеA,B ⊆M .

Часто требуют A ∩B = ∅



Определение 2Поддержкой (support) ассоциативного правила A→ B называется величинаsupp(A→ B) = |(A∪B)′|

|G| .

Значение supp(A→ B) показывает какая доля объектов G содержит A ∪B. Часто

поддержку выражают в %.

Определение 3Достоверностью (confidence) ассоциативного правила A→ B называется величинаconf(A→ B) = |(A∪B)′|

|A′| .

Значение conf(A→ B) показывает какая доля объектов обладающих A также содержит

A ∪B. Величину поддержки также часто выражают в %.



Определение 4Множество признаков F ⊆M называется частым множествомпризнаков если supp(F ) ≥ min_supp.


Пример

Объектно-признаковая таблица транзакцийПокупатели/товары Пиво Пряники Молоко Мюсли Чипсы

С1 1 0 0 0 1С2 0 1 1 1 0С3 1 0 1 1 1С4 1 1 1 0 1С5 0 1 1 1 1

supp({Пиво, Чипсы}) = 3/5

supp({Пряники, Мюсли } → { Молоко }) ==

|({Пряники, Мюсли}∪{Молоко})′||G| = |{C2,C5}|

5= 2/5

conf({Пряники, Мюсли } → { Молоко }) ==

|({Пряники, Мюсли}∪{Молоко})′||{Пряники, Мюсли}′| = |{C2,C5}|

|{C2,C5}| = 1


Постановка задачи

Поиск ассоциативных правил, min-confidence и min-supportТребуется найти все ассоциативные правила контекста, для которых значенияподдержки и достоверности превышают некоторые установленные значения,min_supp и min_conf соответственно [Agrawal, et al., 1993].

Ассоциативные правила и импликацииАссоциативные правила при значениях min_supp = 0% и min_conf = 100%являются импликациями рассматриваемого контекста.

Иногда ассоциативные правила записывают в форме Ac−→s

B, c и s —

confidence и support данного правила соответственно.


Поиск ассоциативных правил

Этапы поиска1 Нахождение частых множеств признаков (frequent itemsets), т.е. множеств

признаков с поддержкой не ниже заданой (min_supp).2 Построение ассоциативных правил на основе найденных частых множеств

признаков.

Первый шаг наиболее трудоемкий, второй шаг тривиальный.

Классический алгоритм, строящий частые множества признаков — Apriori[Agrawal, Srikant, 1994]


АФП мирно встречает Data MiningAgrawal R., RSFDGrC – 2011, Москва


Антимонотонность

Свойство 1 (антимонотонность)Для ∀A,B ⊆M и A ⊆ B ⇒ supp(B) ≤ supp(A)

Ключевое свойство при нахождении многоэлементных частых множествпризнаков

С ростом размера множества его поддержка уменьшается, либо не изменяется

Поддержка любого множества признаков не превышает минимальнойподдержки любого его подмножества

Множество признаков размера n будет частым, тогда и только тогда, когдавсе его (n− 1)-элемнтные подмножества будут частыми


Алгоритм AprioriОписаниенаходит все частые множества признаков

Алгоритм 1.1. Apriori(Context,min_supp)

input: Context− набор данных,min_supp− минимальная поддержкаoutput: все частые множества признаков IF

C1 ← {1-itemsets}i← 1while (Ci 6= ∅)

do

SupportCount(Ci)Fi ← {f ∈ Ci |f.support ≥ min_supp}//F − частые множества признаковCi+1 ← AprioriGen(Fi)//C − кандидатыi++

IF ←⋃Fi

return (IF )


Процедура AprioriGenОписаниедля i-элементных частых множеств признаков порождает их (i+ 1)-надмножества ивозвращает только множество потенциально частых кандидатов

Алгоритм 1.2. AprioriGen(Fi)

input: Fi − частые множества признаков длины ioutput: Ci+1 − потенциальные кандидаты частых множеств признаков

insert into Ci+1 // объединениеselect p[1], p[2], ..., p[i], q[i]from Fip, Fiqwhere p[1] = q[1], ..., p[i− 1] = q[i− 1], p[i] < q[i]for each c ∈ Ci+1 // удаление

do

S ← (i− 1)-элементые подмножества cfor each s ∈ S

do{

if (s 6∈ Fi)then Ci+1 ← Ci+1 \ c

return (Ci+1)


Пример работы AprioriGen

Шаги объединение и исключениеF3 = {{a, b, c}, {a, b, d}, {a, c, d}, {a, c, e}, {b, c, d}}C4 = {{a, b, c, d}, {a, c, d, e}} — шаг объединениеC4 = {{a, b, c, d}} , исключаем {a, c, d, e}, т.к. его подмножество{c, d, e} 6∈ F3 — шаг удаление


Построение правил

Извлечение правил из частых множеств признаковПусть F — частое множество признаков. Фиксируем правило f → F \ f , если

conf(f → F \ f) = supp(F )

supp(f)≥ min_conf


Построение правил

Свойство 2conf(f → F \ f) = supp(F )

supp(f)имеет минимальное значение, когда s(f) максимально.

Достоверность минимальна, когда посылка правила состоит из одногопризнака. Надмножества такого признака имееют меньшую поддержку, а,значит, и большую достоверность.

Рекурсивная процедура извлечения правил. Начинаем с одноэлементнойпосылки f удовлетворяющей min_conf и min_sup, проверяем всенадмножества для данного F . Иcпользуем обязательно все признаки из F накаждом шаге для построения правила.


Задание

1 С помощью алгоритма Apriori построить все частые множествапризнаков контекста из примера 1 для значения min_sup = 1/3

2 Please, say “I ♥ Apriori”.


Компактное представление частых множеств признаков

Пусть дан контекст K := (G,M, I)

Определение 5Множество признаков FC ⊆M называется частым замкнутыммножеством признаков если supp(FC) ≥ min_supp и не существуетF , такого что F ⊃ FC и supp(F ) = supp(FC).

Определение 6Множество признаков MFC ⊆M называется максимальным частымзамкнутым множеством признаков если оно частое и не существует F ,такого что F ⊃ FMC и supp(F ) ≥ min_supp.


Компактное представление частых множеств признаков

Пусть дан контекст K := (G,M, I)

Утверждение 1MFC ⊆ FC ⊆ F , гдеMFC –– множество максимальных замкнутыхмножеств признаков контекста K, FC –– множество его частыхзамкнутых множеств признаков, а F – множество его частых множествпризнаков для заданной минимальной поддержки min_supp.

Утверждение 2Решетка формальных понятий контекста K изоморфна решетке егочастых замкнутых множеств признаков для заданной минимальнойподдержки min_supp = 0.



Множество документов в Интернете имеют дубликаты, в связи счем для поисковых систем необходимы средства эффективноговычисления кластеров документов-дубликатов.Предлагается вычислительная модель на основе частыхзамкнутых множеств признаков для поиска кластеров дубликатовс использованием синтаксических методов составления образовдокументов.


Пример

Пример коллекции документов1 Шалтай-Болтай сидел на стене.2 Шалтай-Болтай досиделся на стене.3 Шалтай-Болтай свалился во сне.4 Шалтай-Болтай – это говорящее яйцо.5 Говорящее яйцо свалилось во сне.


Пример

Составим контекст KDW = (D,W, IDW ), где D – множестводокументов, W – всех слов входящих в эти документы, а IDW –отношение, показывающее, что документ d обладает словом w, т.е.dIDWw.

Контекст документов


Пример

Диаграмма решетки понятий для контекста документов


Пример

Диаграмма решетки понятий с указанием поддержки


Пример

Составим дуальный контекст KWD = (W,D, IWD)

Диаграмма решетки понятий дуального контекста


Пример

Диаграмма решетки понятий дуального контекста


Шинглирование

[Broder, 1997]Параметры: length, offset и shingle_size.Для d ∈ D, определено отображение F : d 7→ Fd, где Fd ⊆ N –множество отпечатков документа d.π(Fd) перестановка на множестве Fd

Утверждение

P [min{π(FA)} = min{π(FB)}] =|FA ∩ FB||FA ∪ FB|

= sim(A,B)


Математическая модель на основе АФП

Формальный контекст KDF = (D,F, I), где D – множество документов, а F –множество хеш-кодов (fingerprins), отношение I показывает что некий объект dобладает признаком f в том и только том случае, когда dIf

Для множества документов A ⊆ D множество их общих признаков A′ служитописанием их сходства, а замкнутое множество A′′ является кластером сходныхобъектов

Для произвольного B ⊆ F величина |B′| = |g ∈ G|∀m ∈ B(gIm)| являетсяподдержкой B и обозначается supp(B).

Множество B замкнуто тогда и только тогда когда для любого C ⊃ B имеет местоsupp(C) < supp(B).

Множество B ⊆M называется k-частым если |B′| > k, где k – параметр.

Поиск замкнутых содержаний контекста KFD = (F,D, I), для которых размермножества их общих шинглов превышает заданный порог сходства.


Эксперименты

URL-коллекция РОМИП, состоящая из 52 файлов, общегоразмера 4,04 Гб, разбивалась на несколько частей, включающихот 1 до 24 файлов (приблизительно от 2% до 50% от размеравсей коллекции).

Параметры шинглирования:число слов в шингле – 10, 15 и 20отступ между началом соседних шинглов – 1размер образа документа – 100, 150 и 200.


Программная реализация

1. Парсер формата XML для коллекции ROMIP (предоставлен Яндексом)

2. Снятие html-разметки.

3. Нарезка шинглов с заданными параметрами

4. Хэширование шинглов

5. Составление образа документов путем выбора подмножества (хэш-кодов) шинглов спомощью методов “n минимальных элементов в перестановке” и “минимальныеэлементы в n перестановках”.

6. Составление по результатам методов 4-5 инвертированной таблицы “списокидентификаторов документов – шингл” - подготовка данных к формату программвычисления замкнутых множеств .

7. Вычисление частых замкнутых множеств с заданным порогом общего числадокументов, в которое входит данное множество шинглов: программа MyFim(реализующая алгоритм FPmax*)

8. Сравнение со списком дубликатов РОМИП – программа Comparator.

Блоки 1-6 и 8 реализованы на языке Java, блок 7 – на языке С++, источник –репозиторий FIMI.


Результаты экспериментов

Результаты работы метода “n минимальных элементов вперестановке”

FPmax Все пары дуб-ликатов

Уникальныепары дубли-катов

Общиепары

Вход Порог ROMIP HSE ROMIP HSEb_1_20_s_100_n1-6.txt 100 33267 7829 28897 3459 4370b_1_20_s_100_n1-6.txt 95 33267 11452 26729 4914 6538b_1_20_s_100_n1-6.txt 90 33267 17553 22717 7003 10550b_1_20_s_100_n1-6.txt 85 33267 22052 21087 9872 12180b_1_20_s_100_n1-12.txt 100 105570 15072 97055 6557 8515b_1_20_s_100_n1-12.txt 95 105570 20434 93982 8846 11588b_1_20_s_100_n1-12.txt 90 105570 30858 87863 13151 17707b_1_20_s_100_n1-12.txt 85 105570 41158 83150 18738 22420b_1_20_s_100_n1-24.txt 100 191834 41938 175876 25980 15958b_1_20_s_100_n1-24.txt 95 191834 55643 169024 32833 22810b_1_20_s_100_n1-24.txt 90 191834 84012 155138 47316 36696b_1_20_s_100_n1-24.txt 85 191834 113100 136534 57800 55300



Результаты работы метода “минимальные элементы в nперестановках”

FPmax Все пары дуб-ликатов

Уникальныепары дубли-катов

Общиепары

Вход Порог ROMIP HSE ROMIP HSEm_1_20_s_100_n1-3.txt 100 16666 4409 14616 2359 2050m_1_20_s_100_n1-3.txt 95 16666 5764 13887 2985 2779m_1_20_s_100_n1-3.txt 90 16666 7601 12790 3725 3876m_1_20_s_100_n1-3.txt 85 16666 9802 11763 4899 4903m_1_20_s_100_n1-6.txt 100 33267 13266 28089 8088 5178m_1_20_s_100_n1-6.txt 95 33267 15439 26802 8974 6465m_1_20_s_100_n1-6.txt 90 33267 19393 24216 10342 9051



алгоритм FPmax*, O(√n log(n))

dataset narod.1.xml – 6941 документ

размер образа документа – 100 шинглов, длина шингла 10, смещение 1 символ.

Время работы, точность и полнота поискаВремя, с Точность Полнота # кластеров F10,098 0,76 0,25 150 0,380,128 0,74 0,29 145 0,420,187 0,70 0,39 140 0,500,276 0,67 0,50 135 0,570,383 0,63 0,57 130 0,600,455 0,58 0,64 125 0,610,559 0,47 0,64 120 0,540,669 0,37 0,67 115 0,480,873 0,29 0,70 110 0,411,045 0,23 0,73 105 0,351,294 0,18 0,69 100 0,29



[Karypis, 2003]

Cистема Cluto – алгоритм повторяющихся разбиений на две части (ClusterRB),O(|I|log(k))параметры: косинусная мера сходства, k – число кластеров

dataset narod.1.xml – 6941 документ

Время работы, точность и полнота поискаВремя, с Точность Полнота # кластеров F1

11 0,02 0,90 100 0,04766 0,09 0,78 1000 0,163125 0,19 0,74 2000 0,306402 0,28 0,71 3000 0,4014484 0,64 0,61 5000 0,6319127 0,90 0,35 6000 0,51



FPMax* число кластеров из одного документа равно 566, ClusterRB – 4227

FPmax* и Cluto – общее число кластеров 903 против 5000

Число кластеров дубликатов: FPmax* – 337, система Cluto – 773

Сравнение кластеров в терминах пар документов дубликатовчисло пар дубликатов РОМИП: 2997число пар дубликатов FPmax*: 2722число пар дубликатов Cluto: 2897число уникальных пар дубликатов РОМИП: 1155число уникальных пар дубликатов FPmax*: 1001число уникальных пар дубликатов Cluto: 1055число общих пар FPmax* и РОМИП: 1721число общих пар Cluto и РОМИП: 1842



ООО “Мастерхост”, 2006-2007По данным, собираемым счетчиками посещений наИнтернет-сайтах, требуется выявлять интересы аудиториицелевого сайтаПредлагается модель построения таксономий пользователей(аудиторий) веб-сайтов на основе АФП с применением критериевотбора релевантных формальных понятий


Математическая модель таксономий аудиторийвеб-сайтов

Внешняя таксономияKex = (V, Sex, I), гдеV – множество всех посетителей целевого сайта, Sex – множество всех сайтов выборкиисключая целевой, I – отношение инцидентности vIs, v ∈ V , s ∈ Sex ⇔ когда посетительv “ходил” на сайт s.

Внутренняя таксономияKin = (V, Sin, I), гдеV – множество всех посетителей целевого сайта, Sin – множество всех собственныхстраниц целевого сайта, I — отношение инцидентности vIs, имеющее место для v ∈ V ,s ∈ Sin ⇔ когда посетитель v “ходил” на сайт s.

Понятие – пара (A,B)

A′ = { множество сайтов s ∈ S, которые посещали все посетители v ∈ A} = B

B′ = {множество посетителей v ∈ V , которые посещали все сайты s ∈ B} = A.


Критерии отбора релевантных понятий

Пусть K = (G,M, I) – формальный контекст, (A,B) – некоторое формальное понятие K,тогда

Индекс устойчивостиИндекс устойчивости σ понятия (A,B) определяется выражением

σ(A,B) =|{C ⊆ A|C′ = B}|

2|A| .

Очевидно, что 0 ≤ σ(A,B) ≤ 1.

Решетка-айсбергПоддержка содержания понятия (A,B) определяется выражением supp(A,B) =

|A||G| .

Пусть дано минимальное значение поддержки minsupp ∈ [0, 1], тогда решеткой-айсбергомназовем множество {(A,B)|supp(B) ≥ minsupp}.


Исходные данные

выборка по статистике посещений 10000 сайтов с прилагаемымплоским тематическим каталогом по 59 категориям.сайт университета, сайт Интернет-магазина бытовой техники, сайткрупного банка, сайт автомобильного Интернет-салона.

Формат данныхid; \\id посетителяlast_ts; \\время последнего захода на сайтвfirst_ts; \\ремя первого захода на сайтnum; \\количество совершенных сессий за все время знакомства ссайтом.


Построение внешней таксономииСайт ВШЭ в сентябре 2006 года в терминах посещений новостных ресурсов.

Решетка-айсберг для 25 самых крупных понятий


Построение внешней таксономииСайт ВШЭ в сентябре 2006 года в терминах посещений новостных ресурсов.

Диаграмма частично упорядоченного множества 25-и самыхустойчивых понятий


Рекомендация рекламных словосочетаний

1 Разработка и реализация алгоритмов для формированиярекомендаций на массивах Интернет-данных

2 Экспериментальная проверка применимости методов Data Miningдля рекомендательной системы Интернет-рекламы



контекстная Интернет-рекламавыявление рекламных слов, интересных рекламодателюпример — Google AdWords


Рекомендация рекламных словосочетаний

Исходные данныеДанные о покупках рекламных словосочетаний. Формальный контекстKFT = (F, T, IFT ), F — множество компаний-рекламодателей, T — множестворекламных словосочетаний, fIt означает, что фирма f ∈ F купила словосочетаниеt ∈ T . Размер контекста — 2000× 3000.

Постановка задачиТребуется выявить рынки рекламных слов с целью последующего формированиярекомендаций

Средства решенияАФП: алгоритм D-miner

поиск ассоциативных правил

ассоциативные правила+морфология

ассоциативные правила+онтология


Рекомендация рекламных словосочетаний: АФП[Besson et al, 2004], D-miner, O(|G|2|M ||L|)

(G,G’)

(M’,M)

(C,D)

(A,B)

(G,G )

D

CA

B

Результаты работы алгоритмаМинимальный размер Минимальный Число

объема понятия размер содержания формальных понятий0 0 8 950 74010 10 3 030 33515 10 759 96315 15 150 98315 20 14 22620 15 661


Рекомендация рекламных словосочетаний: D-miner

Рынок услуг по размещению сайтов{affordable hosting web, business hosting web, cheap hosting, cheap hosting site web,cheap hosting web, company hosting web, cost hosting low web, discount hosting web,domain hosting, hosting internet, hosting page web, hosting service, hosting servicesweb, hosting site web, hosting web}

Гостиничный бизнес{ angeles hotel los, atlanta hotel, baltimore hotel, dallas hotel, denver hotel, diego hotelsan, francisco hotel san, hotel houston, hotel miami, hotel new orleans, hotel new york,hotel orlando, hotel philadelphia, hotel seattle, hotel vancouver }


Рекомендация рекламных словосочетаний:ассоциативные правила

[Szathmary, 2005]

система Coron, алгоритм Zart, информативный базис ассоциативных правил

Примеры правилminsupp=30 minconf=0,9

{florist} → {flower} supp=33 [1.65%]; conf=0.92;

{gift graduation} → {anniversary gift}, supp=41 [2.05%]; conf=0.82;

Результаты поиска ассоциацийmin_supp max_supp min_conf max_conf число правил

30 86 0,9 1 101 39130 109 0,8 1 144 043


Рекомендация рекламных словосочетаний:ассоциативные правила+морфология

t — рекламное словосочетание, t = {w1, w2, . . . , wn}si = stem(wi) — основа слова wi

stem(t) =⋃i

stem(wi) — множество основ словосочетания t

KTS = (T, S, ITS) — формальный контекст, где T — множество всехсловосочетаний, а S — множество основ всех словосочетаний из T , т.е.S =

⋃i

stem(ti)

tIs означает, что во множество основ словосочетания t входит основа s



Пример контекста KFT для рынка “long distance calling”

фирма \ фраза call calling calling carrier cheapdistance distance distance distance distancelong long long plan long long

f1 x x xf2 x x xf3 x xf4 x x xf5 x x x x



Пример контекста KTS для рынка“long distance calling”

фраза \ стем call carrier cheap distanc long plancall distance long x x x

calling distance long x x xcalling distance long plan x x x x

carrier distance long x x xcheap distance long x x x



Примеры

tFT−−→ sITS

i

{last minute vacation} → {last minute travel}Supp= 19 Conf= 0,90

tFT−−→

⋃i

sITSi

{mail order phentermine} →{adipex online order, adipex order, adipex phentermine, . . . ,phentermine prescription, phentermine purchase, phentermine sale}Supp= 19 Conf= 0,95



Примеры

tFT−−→ (

⋃i

si)ITS

{distance long phone} →{call distance long phone, carrier distance long phone, . . . ,distance long phone rate, distance long phone service}Supp= 37 Conf= 0,88

t1FT−−→ t2, такие что tITS

2 ⊆ tITS1

{ink jet} → {ink}, Supp= 14 Conf= 0,7



min_conf = 0.5

Проверка качества правилТип правила Среднее Среднее Число

значение supp значение conf правил

tFT−−→ sITS

i 15 0,64 454t

FT−−→⋃i

sITSi 15 0,63 75

tFT−−→ (

⋃i

si)ITS 18 0,67 393

tFT−−→ ti, где tITS

i ⊆ tITS 21 0,70 3922t

FT−−→⋃i

ti, где tITSi ⊆ tITS 20 0,69 673


Рекомендация рекламных словосочетаний:ассоциативные правила

Результаты скользящего контроля для ассоциативных правил

Число Число average_conf Число average_confправил правил правил с (min_conf=0.5)

с sup > 0 min_conf=0.51 147170 73025 0,77 65556 0,842 69028 68709 0,93 68495 0,933 89332 89245 0,95 88952 0,954 107036 93078 0,84 86144 0,905 152455 126275 0,82 113008 0,906 117174 114314 0,89 111739 0,917 131590 129826 0,95 128951 0,968 134728 120987 0,96 106155 0,979 101346 67873 0,72 52715 0,9210 108994 107790 0,93 106155 0,94

средние 115885 99112 0,87 92787 0,92


Рекомендация рекламных словосочетаний:ассоциативные правила+онтология

Cоставление онтологии (иерархического каталога)

drug

acid vitamin

B D

Метаправила и соотвествующие им ассоциациисопоставление правилам онтологии ассоциаций

t→ gi(t), где gi(t) — множество понятий онтологии на i уровней выше t

t→ n(t), где n(t) — множество соседних для t понятий онтологии, имеющихобщего предка


Рекомендация рекламных словосочетаний:ассоциативные правила+онтология

Примеры правилt→ g1(t)

{d vitamin} → {vitamin }, Supp= 19 Conf= 0,90

t→ n(t)

{b vitamin} → { b complex vitamin, b12 vitamin, c vitamin, d vitamin, discountvitamin, e vitamin, herb vitamin, mineral vitamin, multi vitamin, supplementvitamin} Supp= 18 Conf= 0,7


Основные свободно-распространяемые инструменты

SPMF – an open-source data mining mining libraryThe CORON Data Mining PlatformBart Goethals webpage and FIMI repositoryConexp –– решетки понятий, импликации и ассоциативныеправилаOrange – содержит виджеты для поиска частых множествпризнаков и ассоцитивных правил


http://www.philippe-fournier-viger.com/spmf/

http://coron.loria.fr

http://adrem.ua.ac.be/~goethals/software

http://fimi.ua.ac.be

http://conexp.sourceforge.net

http://orange.biolab.si

Вопросы и контактыwww.hse.ru/staff/dima

Спасибо!

dmitrii.ignatov[at]gmail.com


www.hse.ru/staff/dima

Поиск частых множеств признаков (товаров) и...

Data & Analytics