spcua 2013 кожемякин-алексей

40
22 мая 2013, Киев Успешные корпоративные поисковые порталы на основе SharePoint 2013 Алексей Кожемякин

Upload: alex-kozhemiakin

Post on 15-Jun-2015

1.713 views

Category:

Documents


1 download

DESCRIPTION

SharePoint 2013 конференция Киев поиск Sharepoint Search

TRANSCRIPT

Page 1: Spcua 2013 кожемякин-алексей

22 мая 2013, Киев

Успешные корпоративные поисковые порталы на основе SharePoint 2013

Алексей Кожемякин

Page 2: Spcua 2013 кожемякин-алексей

22 мая 2013, Киев

Как сделать крутой поиск

Алексей Кожемякин

Page 3: Spcua 2013 кожемякин-алексей

3

Обо мне

• Solution Architect @epam

• Focusing on search• Sharepoint Search FAST/2010/2013• Apache Lucene, Solr, elasticsearch,

Oracle Endeca…

• http://powersearching.wordpress.com

Page 4: Spcua 2013 кожемякин-алексей

4

О чем будем говорить

• Корпоративный поисковый портал• Как «работает» поиск в SP2013• Ключевые изменения• Магия – расчет релевантности

• Полезные практики

Page 5: Spcua 2013 кожемякин-алексей

5

Типичные сценарии поиска

• Я знаю что я ищу и я знаю где это найти

• Я знаю что я ищу, но НЕ знаю где это найти

• Я НЕ знаю что я ищу

http://aghy.hu/AghyBlog_EN/Lists/Posts/Post.aspx?ID=199

Page 6: Spcua 2013 кожемякин-алексей

6

• Предпосылки:• Компания растет• Зоопарк из систем

• Решение: • поисковый портал, «маленький гугл»

• Быстрая бизнес польза от внедрения:• Единая точка поиска информации• Сокращение времени на поиск информации• Улучшение климата внутри компании

Поисковый портал

Page 7: Spcua 2013 кожемякин-алексей

7

Но после внедрения…

• «Поиск плохо ищет»• Из коробки поиск ничего не знает про вас• «Но…• … Microsoft позаботились о хорошем алгоритме»• … мы не уверены что сделаем лучше»• ... нам не нужен поиск, у нас все знают что где лежит»• … сделайте нам как в Гугл\Бинг»

Page 8: Spcua 2013 кожемякин-алексей

8

Почему это сложно

• Неоднозначные короткие запросы• Разнородный неоптимизированный контент• Разная терминология составителей и

потребителей контента• Ограниченность ресурсов, в то время как в

интернет-поисковиках• Ручное и автоматическое измерение качества

(асессоры)• Постоянное улучшение

Page 9: Spcua 2013 кожемякин-алексей

9

Архитектура поиска в SP2013

Page 10: Spcua 2013 кожемякин-алексей

10

Поиск - двухфазный процесс

• Матчинг – все документы с ключ.словами• Лингвистика: стемминг, фонетика• Синонимы

• Ранжирование• «Фичи»

• TF-IDF, BM25• Вес полей• Тип файла• Дата изменения• Популярность• …

Page 11: Spcua 2013 кожемякин-алексей

11

Ранжирование в FAST

• Линейная комбинация фич

Page 12: Spcua 2013 кожемякин-алексей

12

Ранжирование в FAST

• Вклад отдельных компонент в результат

1st 2nd 3rd 4th0

1000

2000

3000

4000

5000

6000

7000

8000

term:fast term:search freshness static rank proximity

Page 13: Spcua 2013 кожемякин-алексей

13

Миграция FAST->SP2013

Page 14: Spcua 2013 кожемякин-алексей

14

Ранжирование в SP2013

Page 15: Spcua 2013 кожемякин-алексей

15

Ранжирование в SP2013

• Основная модель релевантности• Две последовательные нейронные сети• Дата документа не учитывается• Фичи Type Instance

BM25 BM25Static UrlDepthBucketedStatic InternalFileTypeBucketedStatic LanguageStatic ClickDistanceStatic QueryLogClicksStatic QueryLogSkipsStatic LastClicksStatic EventRateMinSpan - soft TitleMinSpan - soft TitleMinSpan - soft TitleMinSpan - soft Content

Page 16: Spcua 2013 кожемякин-алексей

16

Ранжирование в SP2013

• Основная модель релевантности

Page 17: Spcua 2013 кожемякин-алексей

17

Расшифровка релевантности

• /_layout/15/explainrank.aspx• rankdetail property

Page 18: Spcua 2013 кожемякин-алексей

18

Расшифровка релевантности

• Ручная проверка в екселе

Page 19: Spcua 2013 кожемякин-алексей

19

Page 20: Spcua 2013 кожемякин-алексей

20

Успешные практики

1. Поисковая аналитика2. Тонкая настройка и адаптация3. Регулярное тестирование4. Анализ проблем с конфиденциальностью5. Популяризация6. Адаптация контента

Page 21: Spcua 2013 кожемякин-алексей

21

1. Поисковая аналитика

• Поисковая аналитика

• Поисковая аналитика

• Поисковая аналитика

Page 22: Spcua 2013 кожемякин-алексей

22

1. Поисковая аналитика

• Стандартно в SP2013• Наиболее популярные запросы• «Неудачные» запросы

• Сторонние системы (Google Analytics, Omniture, WebTrends)• Измерение качества поиска

• % кликов на результаты• на какие результаты• обратные переходы

• Анализ сессии• Сегментация запросов

Page 23: Spcua 2013 кожемякин-алексей

23

Сегментация запросов

• Анализировать не только самые популярные, а классы запросов

Page 24: Spcua 2013 кожемякин-алексей

24

2. Тонкая настройка

• Authoritative Pages• Быстрая выгода – приоритет источников контент

• Query Rules• Поиск становится умным в глазах пользователей

• Synonyms• Отдельный маппинг файл• Только экспансия• Синонимы термсетов не работают

• Модели релевантности

Page 25: Spcua 2013 кожемякин-алексей

25

Authoritative Pages

• Влияет на ClickDistance• ClickDistance, UrlDepth имеют сильное влияние

на итоговую релевантность• Конфигурируются в CA, CSOM

Page 26: Spcua 2013 кожемякин-алексей

26

Query Rules (Rule + Action)

• Основной инструмент имитации разума• Интерактивная реакция на запросы• Пост обработка запроса• Навигационные ключевые слова• …

Page 27: Spcua 2013 кожемякин-алексей

27

Условия для Query Rules

• Query Matches Keyword Exactly• Advanced Query Text Match• Query Matches Dictionary Exactly

• Query Contains Action Term

• Query More Common in Source• Result Type Commonly Clicked

Page 28: Spcua 2013 кожемякин-алексей

28

Действия для Query Rules

• Create and display a result block• Change ranked search results• Best Bets• XRANK

• Работает аддитивно• Не отображается в rankdetail• Правильный выбор веса?

Page 29: Spcua 2013 кожемякин-алексей

29

Шаблоны для QueryRules

• Типичные комбинации из нашего портала• Software, soft, download, install• How to• Policy, Blog• Portal• Music, Video• Presentation, Documents, Report• Training, tutorial• Book, ebook

• У вас будут другие!

Page 30: Spcua 2013 кожемякин-алексей

30

Custom Rank Models

• Сбор Query Judgments• Настройка коэффициентов нейронной сети

машинным обучением• Gradient Descent, Lambda Rank

• Microsoft.Office.Server.Search.RankerTuning

Page 31: Spcua 2013 кожемякин-алексей

31

Custom Rank Models

• Модифицируйте простую модель сделанную руками• A/B тестирование весов• Измерение, метрики : Precision, NDCG

Page 32: Spcua 2013 кожемякин-алексей

32

Custom Rank Models

• Пример – модель поиска людей

Page 33: Spcua 2013 кожемякин-алексей

33

3. Тестирование поиска

• Зачем? Это компас.• «Юнит тестирование»• Ручное тестирование, периодически

Page 34: Spcua 2013 кожемякин-алексей

34

4. Аудит «безопасности»

• Внедрение поиска выявляет проблемы с правами доступа • Security by obscurity

• Например:• «конфиденциально»• Зарплаты, подробности интервью

• Решение – автоматический мониторинг чувствительных запросов

Page 35: Spcua 2013 кожемякин-алексей

35

5. Адаптация контента

• Работа с подразделениями• Помощь в мониторинге аналитики

• Гайдлайн по оформлению контента• Базовый SEO• Оформление заголовков• Оформление урлов• Мета тэги <meta name=…

• Title, description• Автоматически протянутся в crawled properties

Page 36: Spcua 2013 кожемякин-алексей

36

6. Популяризация

• Имидж – «здесь найдется все»• Интеграция с другими системами• Поиск как сервис• Виджет «поискать во всех системах»

• Бэджи, гемификация

Page 37: Spcua 2013 кожемякин-алексей

37

Популяризация

• Социальные Best-bets

Page 38: Spcua 2013 кожемякин-алексей

38

Понимать естественный язык

• В общем виде задача не решается• Аналитика + кропотливая работа• см выше набор практик

• NLP – question answering• Rocket science• English only• Part of speech tagging, dependency parsing

• Stanford NLP, Open NLP, IR

Page 39: Spcua 2013 кожемякин-алексей

39

«Литература»

• Patents - http://goo.gl/20sbR

• Explain Rank page - http://goo.gl/o3ZmN

• How SP2013 relevancy models works - http://goo.gl/arf0P

• MS Enterprise Search approach - http://goo.gl/x8SDO

• Customizing ranking models in SP 2013 - http://goo.gl/lBJAp

Page 40: Spcua 2013 кожемякин-алексей

22 мая 2013, Киев

Спасибо за внимание

Skype: Alexey_KozhemiakinEmail: [email protected]: http://powersearching.wordpress.com

40