hadoop in wikimart. part 1. business
DESCRIPTION
Этот доклад я презентовал на конференции BI тренды 11 октября 2012 года в Москве. http://events.cnews.ru/events/programm/bi_instrumenty_v_rossii__poslednie_trendy.shtmlTRANSCRIPT
![Page 1: Hadoop in Wikimart. Part 1. Business](https://reader033.vdocuments.us/reader033/viewer/2022051818/54bba8ae4a7959892d8b4579/html5/thumbnails/1.jpg)
Hadoop & WikimartРоман Зыков
http://wikimart.ru
Moscow, BI trends, 11th October 2012
![Page 2: Hadoop in Wikimart. Part 1. Business](https://reader033.vdocuments.us/reader033/viewer/2022051818/54bba8ae4a7959892d8b4579/html5/thumbnails/2.jpg)
Введение
Быть или не быть…. Hadoop
![Page 3: Hadoop in Wikimart. Part 1. Business](https://reader033.vdocuments.us/reader033/viewer/2022051818/54bba8ae4a7959892d8b4579/html5/thumbnails/3.jpg)
Задачи Wikimart
Что•BI задачи •Веб аналитика (внутреннее решение)•Рекомендации на сайте•Сервисы для маркетинга
Кто•Аналитический отдел•Аналитики других отделов •IT
![Page 4: Hadoop in Wikimart. Part 1. Business](https://reader033.vdocuments.us/reader033/viewer/2022051818/54bba8ae4a7959892d8b4579/html5/thumbnails/4.jpg)
Проблема
Ждать или платить?•Объем данных•# сервисов
![Page 5: Hadoop in Wikimart. Part 1. Business](https://reader033.vdocuments.us/reader033/viewer/2022051818/54bba8ae4a7959892d8b4579/html5/thumbnails/5.jpg)
Map Reduce
DATA
Standalone
Map Reduce
![Page 6: Hadoop in Wikimart. Part 1. Business](https://reader033.vdocuments.us/reader033/viewer/2022051818/54bba8ae4a7959892d8b4579/html5/thumbnails/6.jpg)
Наша идея
Новая платформа только для “больших” задач
•Исследовать Map Reduce ПО•Первый пациент – алгоритмы рекомендаций
Сложности- нет бюджета -> Hadoop бесплатен - нет экспертов -> изучили- нет железа -> виртуальный кластер
![Page 7: Hadoop in Wikimart. Part 1. Business](https://reader033.vdocuments.us/reader033/viewer/2022051818/54bba8ae4a7959892d8b4579/html5/thumbnails/7.jpg)
Требования
• Масштабируемость • Инсталляция• Интеграция • Без Java • SQL запросы
![Page 8: Hadoop in Wikimart. Part 1. Business](https://reader033.vdocuments.us/reader033/viewer/2022051818/54bba8ae4a7959892d8b4579/html5/thumbnails/8.jpg)
Схема данных
Сервисы данныхDWH
![Page 9: Hadoop in Wikimart. Part 1. Business](https://reader033.vdocuments.us/reader033/viewer/2022051818/54bba8ae4a7959892d8b4579/html5/thumbnails/9.jpg)
Результаты
Рекомендации•Коллаборативная фильтрация (веб данные, PIG)•Товары аналоги (атрибуты товаров, PIG)•Популярные товары (веб данные, HiveQL)•Поисковые рекомендации (HiveQL)
1 год эксплуатации•>10% доходов•3 месяца на запуск•Десятки гигабайт обрабатываются за 2 часа•1 авария из-за полного отключения питания
Решение: Вложить деньги в железо
![Page 10: Hadoop in Wikimart. Part 1. Business](https://reader033.vdocuments.us/reader033/viewer/2022051818/54bba8ae4a7959892d8b4579/html5/thumbnails/10.jpg)
Конечный пользователь
Внутренние ЯП•HiveQL •Pig
BI задачи•Агрегация данных для OLAP•RDBMS как витирина•OLAP и BI должны поддерживать HiveQL
![Page 11: Hadoop in Wikimart. Part 1. Business](https://reader033.vdocuments.us/reader033/viewer/2022051818/54bba8ae4a7959892d8b4579/html5/thumbnails/11.jpg)
Интеграция данных
• SQOOP• Параллельный обмен с RDBMS
(MS SQL, MySQL, Oracle, Teradata… )• Инкрементальное обновление• HDFS, Hive, HBASE
• Talend Open Studio
![Page 12: Hadoop in Wikimart. Part 1. Business](https://reader033.vdocuments.us/reader033/viewer/2022051818/54bba8ae4a7959892d8b4579/html5/thumbnails/12.jpg)
Hadoop и RDBMS
• Не заменят RDBMS:• Задержка• Слабые возможности HiveQL отн. SQL
• Задачи по оффлайн вычислениям:• Машинное обучение• Запросы к «большим» таблицам• ….
• Онлайн запросы: NOSQL
![Page 13: Hadoop in Wikimart. Part 1. Business](https://reader033.vdocuments.us/reader033/viewer/2022051818/54bba8ae4a7959892d8b4579/html5/thumbnails/13.jpg)
Миф
Терабайты?Петабайты?
Big tasks!
![Page 14: Hadoop in Wikimart. Part 1. Business](https://reader033.vdocuments.us/reader033/viewer/2022051818/54bba8ae4a7959892d8b4579/html5/thumbnails/14.jpg)
Выводы
• Hadoop это не квантовая физика• Вычислительные данные могут быть большими
Starter kit• Система управления Hadoop• Виртуальное железо (облако и т.д.)• Оффлайн вычисления• Pig или HiveQL• Sqoop: импорт/экспорт данных из БД