Михаил Киселев megaputer intelligence ltd
DESCRIPTION
Метод кластеризации текстов, основанный на попарной близости термов, характеризующих тексты, и его сравнение с метрическими методами кластеризации. Михаил Киселев Megaputer Intelligence Ltd. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Михаил Киселев Megaputer Intelligence Ltd](https://reader036.vdocuments.us/reader036/viewer/2022081503/568149e8550346895db71266/html5/thumbnails/1.jpg)
Метод кластеризации текстов, основанный на попарной близости термов, характеризующих тексты, и его сравнение с метрическими методами кластеризации
Михаил Киселев
Megaputer Intelligence Ltd
![Page 2: Михаил Киселев Megaputer Intelligence Ltd](https://reader036.vdocuments.us/reader036/viewer/2022081503/568149e8550346895db71266/html5/thumbnails/2.jpg)
Автоматическая кластеризация текстов - актуальная и до сих пор не имеющая хорошего универсального решения проблема.
Основные трудности:
• Неоднозначность определения смысловой близости текстов.
• Часто - необходимость работать с очень высоко размерными пространствами.
• Требования интерпретируемости - смысловая пометка кластеров, объяснение отнесения текста к кластеру.
![Page 3: Михаил Киселев Megaputer Intelligence Ltd](https://reader036.vdocuments.us/reader036/viewer/2022081503/568149e8550346895db71266/html5/thumbnails/3.jpg)
Наиболее распространенный подход - метрический
пространство признаков
тексты
кластеры
![Page 4: Михаил Киселев Megaputer Intelligence Ltd](https://reader036.vdocuments.us/reader036/viewer/2022081503/568149e8550346895db71266/html5/thumbnails/4.jpg)
Идеи предлагаемого альтернативного подхода:
• Каждый текст представляется как множество его ключевых термов (а не как точка в пространстве признаков – с одним и тем же набором признаков для всех термов)
• Близость текстов вычисляется на основе попарной близости их ключевых термов
• Оценка близости термов производится на основе иерархического тезауруса (онтологии)
![Page 5: Михаил Киселев Megaputer Intelligence Ltd](https://reader036.vdocuments.us/reader036/viewer/2022081503/568149e8550346895db71266/html5/thumbnails/5.jpg)
Статистический подход к построению множества ключевых термов
• Критерий – существенное превышение частоты терма в тексте над средней частотой
• Дополнительное условие – никакие два ключевых терма не должны быть связаны отношением гипернимии
![Page 6: Михаил Киселев Megaputer Intelligence Ltd](https://reader036.vdocuments.us/reader036/viewer/2022081503/568149e8550346895db71266/html5/thumbnails/6.jpg)
Мера значимости превышения частоты терма над средней:
f(t) – средняя частота терма t
n(t) – число термов t в тексте
n – общее число термов в тексте
p(t) - вероятность того, что, сделав n испытаний с априорной вероятностью успеха f(t), мы получим n(t) или более успехов
![Page 7: Михаил Киселев Megaputer Intelligence Ltd](https://reader036.vdocuments.us/reader036/viewer/2022081503/568149e8550346895db71266/html5/thumbnails/7.jpg)
Критерий включения терма в множество ключевых термов
)(
03.0),(
dNntdp
![Page 8: Михаил Киселев Megaputer Intelligence Ltd](https://reader036.vdocuments.us/reader036/viewer/2022081503/568149e8550346895db71266/html5/thumbnails/8.jpg)
Средняя частота терма
Частота терма в большом текстовом корпусе (по возможности – относящемся к той же тематике, что и кластеризуемый корпус), из текстов которого исключены все ключевые термы
![Page 9: Михаил Киселев Megaputer Intelligence Ltd](https://reader036.vdocuments.us/reader036/viewer/2022081503/568149e8550346895db71266/html5/thumbnails/9.jpg)
Близость 2 термов
Величина, обратная расстоянию между этими термами в графе, представляющем онтологию, + 1
![Page 10: Михаил Киселев Megaputer Intelligence Ltd](https://reader036.vdocuments.us/reader036/viewer/2022081503/568149e8550346895db71266/html5/thumbnails/10.jpg)
Близость 2 текстов
)()(
),(),(),(
21
122121 dndn
ddPddPddP
)(
)(121
12
),(max),(),(dt
dsstPtdnddP
KK
где
![Page 11: Михаил Киселев Megaputer Intelligence Ltd](https://reader036.vdocuments.us/reader036/viewer/2022081503/568149e8550346895db71266/html5/thumbnails/11.jpg)
Автоматическое построение иерархического тезауруса
Теоретические основы:
• Распределительная гипотеза. Семантически подобные термы встречаются, как правило, в похожем лингвистическом контексте.
• Частотная гипотеза. Частота встречаемости гипернимов в текстах больше, чем у любого их гипонима.
![Page 12: Михаил Киселев Megaputer Intelligence Ltd](https://reader036.vdocuments.us/reader036/viewer/2022081503/568149e8550346895db71266/html5/thumbnails/12.jpg)
Автоматическое построение иерархического тезауруса
Исходные данные:
Матрица совместной встречаемости лексем, рассчитанная на большом текстовом корпусе.
Ее элементы – вероятности, что два терма будут обнаружены в N или более текстов одновременно при предположении об их независимом распределении в корпусе. Здесь N – наблюдаемое число документов, включающих оба этих терма.
![Page 13: Михаил Киселев Megaputer Intelligence Ltd](https://reader036.vdocuments.us/reader036/viewer/2022081503/568149e8550346895db71266/html5/thumbnails/13.jpg)
Автоматическое построение иерархического тезауруса
Алгоритм:
Бинарная аггломеративная кластеризация термов с мерой расстояния между термами, задаваемой матрицей совместной встречаемости лексем
Пометка кластеров – узлов образующегося дерева 3мя наиболее частыми лексемами
![Page 14: Михаил Киселев Megaputer Intelligence Ltd](https://reader036.vdocuments.us/reader036/viewer/2022081503/568149e8550346895db71266/html5/thumbnails/14.jpg)
Пример – фрагмент получившегося иерархического тезауруса
собакапородащенок
собакащенок
щенок собака
породаовчаркатерьер
спаниель
овчаркатерьер
спаниельмастиф
ретривер
овчарка терьер спаниель мастиф
овчаркатерьер
спаниель
собакапородащенок
![Page 15: Михаил Киселев Megaputer Intelligence Ltd](https://reader036.vdocuments.us/reader036/viewer/2022081503/568149e8550346895db71266/html5/thumbnails/15.jpg)
Метрические методы кластеризации, использованные для целей сравнения
• MSEL – отбор размерностей, соответствующих лексемам с максимальной суммой tfidf по кластеризуемому корпусу
• MLSA – отбор размерностей на основе латентного семантического анализа
![Page 16: Михаил Киселев Megaputer Intelligence Ltd](https://reader036.vdocuments.us/reader036/viewer/2022081503/568149e8550346895db71266/html5/thumbnails/16.jpg)
Критерии сравнительной оценки
• Точность кластеризации – насколько найденные кластеры соответствуют заранее заданному разбиению корпуса на смысловые категории
• Интерпретируемость кластеризации – насколько понятна и адекватна смысловая пометка найденных кластеров
![Page 17: Михаил Киселев Megaputer Intelligence Ltd](https://reader036.vdocuments.us/reader036/viewer/2022081503/568149e8550346895db71266/html5/thumbnails/17.jpg)
Точность кластеризации – мера взаимной информации Шеннона между идентификатором кластера и смысловой категорией
j
ii j
jqjq
iqiqjiqjiqIG
)(log)(
)(log)(),(log),(
22
11
ij
jiqjqjiqiqNjim
jiq ),()(,),()(,),(
),( 21
m(i,j) - количество текстов из смыслового класса I, отнесенных к кластеру j
![Page 18: Михаил Киселев Megaputer Intelligence Ltd](https://reader036.vdocuments.us/reader036/viewer/2022081503/568149e8550346895db71266/html5/thumbnails/18.jpg)
Текстовые корпуса, использованные для сравнения
• Корпус Wl. Случайная выборка 965 веб-сраниц русского Интернета общим объемом 4.2 MB. 36 классов.
• Корпус Wh. Та же выборка, 59 классов.
• Корпус Ql. Набор страниц из выборки русского Интернета, предоставленной Яндексом, которые содержат фамилию Столыпин. 56 текстов общим объемом 1.7МВ. 7 классов.
• Корпус Qh. Тот же корпус, 12 классов.
• Корпус N. Выборка текстов новостей, из архива, предоставленного компанией Яндекс («обычная неделя»). 430kB в 295 текстах. 16 классов.
• Корпус H. Заголовки новостей из того же самого архива. Общий объем – 135kB. Количество текстов – 2020. 431 класс.
• Корпус Cl. Статьи уголовного кодекса РФ, посвященные отдельным видам преступлений. 276 текстов, 270kB. В качестве смысловых классов служат 6 разделов этой части УК.
• Корпус Ch. Статьи УК, но классифицированные по 19 его главам.
![Page 19: Михаил Киселев Megaputer Intelligence Ltd](https://reader036.vdocuments.us/reader036/viewer/2022081503/568149e8550346895db71266/html5/thumbnails/19.jpg)
Результаты по точности кластеризации
![Page 20: Михаил Киселев Megaputer Intelligence Ltd](https://reader036.vdocuments.us/reader036/viewer/2022081503/568149e8550346895db71266/html5/thumbnails/20.jpg)
Пример сравнения пометки кластеров
![Page 21: Михаил Киселев Megaputer Intelligence Ltd](https://reader036.vdocuments.us/reader036/viewer/2022081503/568149e8550346895db71266/html5/thumbnails/21.jpg)
Выводы
• Результаты сравнения подтверждают предположение о том, что предлагаемый метод должен иметь преимущество в случае сильного тематического разнообразия анализируемого корпуса либо малого размера отдельных текстов.
• Предлагаемый метод приводит к гораздо более понятной и точной смысловой пометке найденных кластеров.
• Дополнительный результат - разработан метод автоматического создания напоминающей иерархический тезаурус структуры на базе матрицы совместной встречаемости лексем, построенной на большом текстовом корпусе.