17.10 - 17 - sas · (enterprise data warehouse) node 3 node 4 node 5 etl Ускорители...

17
Copyright © 2015, SAS Institute Inc. All rights reserved. УНИФИКАЦИЯ ИТ ИНФРАСТРУКТУРЫ НОВЫЕ ИСТОЧНИКИ ДАННЫХ: ЗАГРУЗКА, ХРАНЕНИЕ, ОБРАБОТКА ИЗВЛЕЧЕНИЕ НОВЫХ ХАРАКТЕРИСТИК: ИЗ ТЕКСТА, ВЗАИМОСВЯЗЕЙ ИНТЕРАКТИВНОЕ ИССЛЕДОВАНИЕ ДАННЫХ/ ПРОВЕРКА КЕЙСОВ АНАЛИТИЧЕСКОЕ МОДЕЛИРОВАНИЕ/ ПРОТОТИПЫ УСКОРЕНИЕ РАБОТЫ BD ЛАБОРАТОРИИ И ТЕКУЩИХ СИСТЕМ ПОСТАНОВКА ПРОТОТИПОВ МОДЕЛЕЙ НА РЕГЛАМЕНТ/ ТЕСТИРОВАНИЕ МОНИТОРИНГ ЭФФЕКТИВНОСТИ SAS High Performance Data Mining SAS High-Performance SAS In-Memory Statistics for Hadoop Big Data технологии для повышения эффективности работы текущих систем 17.10 - 17.40 Олег Назаров, SAS

Upload: others

Post on 25-May-2020

29 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 17.10 - 17 - SAS · (Enterprise Data Warehouse) Node 3 Node 4 Node 5 ETL Ускорители аналитики: Data Mining, … Основной аналитический сервер

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

УНИФИКАЦИЯ ИТ

ИНФРАСТРУКТУРЫНОВЫЕ

ИСТОЧНИКИ

ДАННЫХ:

ЗАГРУЗКА,

ХРАНЕНИЕ,

ОБРАБОТКА

ИЗВЛЕЧЕНИЕ

НОВЫХ

ХАРАКТЕРИСТИК:

ИЗ ТЕКСТА,

ВЗАИМОСВЯЗЕЙ

ИНТЕРАКТИВНОЕ

ИССЛЕДОВАНИЕ

ДАННЫХ/ ПРОВЕРКА

КЕЙСОВАНАЛИТИЧЕСКОЕ

МОДЕЛИРОВАНИЕ/

ПРОТОТИПЫ

УСКОРЕНИЕ

РАБОТЫ BD

ЛАБОРАТОРИИ

И ТЕКУЩИХ

СИСТЕМ

ПОСТАНОВКА

ПРОТОТИПОВ

МОДЕЛЕЙ НА

РЕГЛАМЕНТ/

ТЕСТИРОВАНИЕ

МОНИТОРИНГ

ЭФФЕКТИВНОСТИ

SAS High Performance Data Mining

SAS High-Performance …

SAS In-Memory Statistics

for Hadoop

Big Data технологии для

повышения

эффективности работы

текущих систем

17.10 - 17.40

Олег

Назаров,

SAS

Page 2: 17.10 - 17 - SAS · (Enterprise Data Warehouse) Node 3 Node 4 Node 5 ETL Ускорители аналитики: Data Mining, … Основной аналитический сервер

Copyright © 2015, SAS Institute Inc. All right reserved.

Назаров Олег,

консультант направления аналитики, Поддержка продаж

Big Data технологии для повышения

эффективности работы текущих

систем

Page 3: 17.10 - 17 - SAS · (Enterprise Data Warehouse) Node 3 Node 4 Node 5 ETL Ускорители аналитики: Data Mining, … Основной аналитический сервер

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .

УСКОРИТЕЛИ РАБОТЫ АНАЛИТИКИ

EDW(Enterprise Data Warehouse)

Node 3 Node 4 Node 5

ETL

Ускорители

аналитики: Data

Mining, …

Основной аналитический сервер

Аналитика

Управление

преобразованием

данных

Вычислительный кластер

BIG DATA

ТЕХНОЛОГИИ

Page 4: 17.10 - 17 - SAS · (Enterprise Data Warehouse) Node 3 Node 4 Node 5 ETL Ускорители аналитики: Data Mining, … Основной аналитический сервер

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .

УСКОРИТЕЛИ РАБОТЫ АНАЛИТИКИ

Node 3 Node 4 Node 5

EDW(Enterprise Data Warehouse)

ETL

SAS High-Performance

Data Mining,…

Основной аналитический сервер Вычислительный кластер

SAS Enterprise Miner,

...

SAS Scoring

Accelerator

SAS Data Management

BIG DATA

ТЕХНОЛОГИИ

Page 5: 17.10 - 17 - SAS · (Enterprise Data Warehouse) Node 3 Node 4 Node 5 ETL Ускорители аналитики: Data Mining, … Основной аналитический сервер

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .

In-m

em

oryУглубленная Аналитика

Massive Parallel Processing или Hadoop

In-memory аналитика

In-m

em

ory

Page 6: 17.10 - 17 - SAS · (Enterprise Data Warehouse) Node 3 Node 4 Node 5 ETL Ускорители аналитики: Data Mining, … Основной аналитический сервер

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .

HP Optimization

• Распределение

ресурсов

• Расписания

• Объекты на карте

HP Forecasting

• Прогнозирование временных рядов

• Сценарный анализ

• Планирование

HP Econometrics

• Анализ закономерностей для

временных рядов

• Задачи классификации и регрессии

на временных рядах

УСКОРИТЕЛИ РАБОТЫ АНАЛИТИКИ

HP Data Mining

• Сегментация объектов

• Задачи классификации

• Вероятность наступления событий

HP Statistics• Линейные, нелинейные, смешанные,

обобщенные модели

HP Text Mining• Неструктурированные предикторы в

моделях

• Кластеризация документов HP SNA

• Взаимосвязи

• Сообщества

• Лидеры

BIG DATA

ТЕХНОЛОГИИ

Page 7: 17.10 - 17 - SAS · (Enterprise Data Warehouse) Node 3 Node 4 Node 5 ETL Ускорители аналитики: Data Mining, … Основной аналитический сервер

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .

КОНФИГУРАЦИЯ ТЕСТИРУЕМОЙ СИСТЕМЫ

Характеристики кластера

4 nodes (1 name_node, 3 worker_nodes), каждая из которых

имеет:

CPU speed: 16x2700 MHz (1x16)

RAM: 256 GB

Disk: 1.5 TB

БАНК ИЗ TOP-3

Page 8: 17.10 - 17 - SAS · (Enterprise Data Warehouse) Node 3 Node 4 Node 5 ETL Ускорители аналитики: Data Mining, … Основной аналитический сервер

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .

SAS HIGH-PERFORMANCE DATA MINING

Функционал Размер выборкиHigh-Performance

среда

Прежняя

вычислительная

среда

Прирост

производительности( во сколько раз)

Трансформация данных (binning)

187 переменных3 000 000 наблюдений

7 мин 14 сек 90 мин 4 сек ~13

Кластеризация 3 мин 14 сек 44 мин 45 сек ~14

Логистическая регрессия

200 переменных3 000 000 наблюдений

11 мин 30 сек 8 часов 19 мин 24 сек ~44

Нейронные сети 9 мин 15 сек 1 час 18 мин 52 сек ~9

БАНК ИЗ TOP-3

Page 9: 17.10 - 17 - SAS · (Enterprise Data Warehouse) Node 3 Node 4 Node 5 ETL Ускорители аналитики: Data Mining, … Основной аналитический сервер

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .

Функциональная область Тестируемый продукт

Средний прирост

производительности

(во сколько раз)

Data MiningSAS High-Performance Data

Mining ~20

БАНК ИЗ TOP-3 ТЕСТИРОВАНИЕ В КРУПНОМ РОССИЙСКОМ БАНКЕ

Page 10: 17.10 - 17 - SAS · (Enterprise Data Warehouse) Node 3 Node 4 Node 5 ETL Ускорители аналитики: Data Mining, … Основной аналитический сервер

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .

ИНТЕРАКТИВНАЯ АНАЛИТИКА

EDW(Enterprise Data Warehouse)

Node ..Node 7Node 3 Node 4 Node 5 Node 6

Интерактивная

визуализация

Интерактивный

анализ

закономерностей

Интерактивное

моделирование

ETL

Вычислительный кластер

Ускорители

аналитики: Data

Mining, …

Основной аналитический сервер

Подкластер

интерактивной

работы

Аналитика

Управление

преобразованием

данных Подкластер

неинтерактивных

задач

BIG DATA

ТЕХНОЛОГИИ

Page 11: 17.10 - 17 - SAS · (Enterprise Data Warehouse) Node 3 Node 4 Node 5 ETL Ускорители аналитики: Data Mining, … Основной аналитический сервер

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .

ИНТЕРАКТИВНАЯ АНАЛИТИКА

Node ..Node 7Node 3 Node 4 Node 5 Node 6

SAS Visual Analytics

SAS IM-STAT

SAS Visual Statistics

EDW(Enterprise Data Warehouse)

ETL

SAS High-Performance

Data Mining,…

Основной аналитический сервер

Подкластер

интерактивной

работы

Вычислительный кластер

SAS Enterprise Miner,

...

SAS Scoring

Accelerator

SAS Data Management

Подкластер

неинтерактивных

задач

BIG DATA

ТЕХНОЛОГИИ

Page 12: 17.10 - 17 - SAS · (Enterprise Data Warehouse) Node 3 Node 4 Node 5 ETL Ускорители аналитики: Data Mining, … Основной аналитический сервер

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .

Функциональная область Тестируемый продукт

Средний прирост

производительности

(во сколько раз)

Интерактивная визуализация SAS Visual Analytics ~45

Интерактивное моделирование SAS Visual Statistics ~45

Интерактивное исследование

данных (программирование)

SAS In-Memory Statistics for

Hadoop ~70

БАНК ИЗ TOP-3 ИНТЕРАКТИВНАЯ АНАЛИТИКА

Page 13: 17.10 - 17 - SAS · (Enterprise Data Warehouse) Node 3 Node 4 Node 5 ETL Ускорители аналитики: Data Mining, … Основной аналитический сервер

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .

Node 1 Node 2 Node 3

ВАРИАНТ ЦЕЛЕВОЙ АРХИТЕКТУРЫ

Node ..Node 11Node 7 Node 8 Node 9 Node 10

КХДETL

Интерактивная

визуализация

Интерактивный

анализ

закономерностей

Интерактивное

моделирование

Регламентное копирование

витрин данных

Основной аналитический кластер

Node 4 Node 5 Node 6

Подготовка и

преобразование данных

Ускоритель аналитики:

Data Mining, …

Регламетное

применение моделей

Вычислительный кластер

Подкластер

Web

среды

Подкластер

мета-

данных

Подкластер

вычислений

Аналитика

Балансировка нагрузки на

кластере

Публикация моделей в кэш

данных

Доступ к внешним форматам

данных

Подкластер

интерактивной работы

Подкластер кэша данных и

неинтерактивных задач

БАНК ИЗ TOP-3

Page 14: 17.10 - 17 - SAS · (Enterprise Data Warehouse) Node 3 Node 4 Node 5 ETL Ускорители аналитики: Data Mining, … Основной аналитический сервер

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .

ВАРИАНТ ЦЕЛЕВОЙ АРХИТЕКТУРЫ

Node ..Node 11Node 7 Node 8 Node 9 Node 10

Подкластер

интерактивной работы

КХДETL

Основной аналитический кластер

Node 6

SAS High-Performance

Data Mining

(SAS HP Statistics,

HP Text Mining, …)

SAS Data Loader

SAS Visual Analytics

SAS IM-STAT

SAS Visual Statistics

Вычислительный кластер

Кластер

Metadata

Кластер

Compute

Node 1 Node 2 Node 3 Node 4 Node 5

SAS Enterprise Miner, ...

SAS Scoring Accelerator

SAS ACCESS to Teradata,

Hadoop

SAS Grid Manager

Подкластер

Mid-tierПодкластер

Metadata

Подкластер

ComputeПодкластер кэша данных и

неинтерактивных задач

Регламентное копирование

витрин данных

БАНК ИЗ TOP-3

Page 15: 17.10 - 17 - SAS · (Enterprise Data Warehouse) Node 3 Node 4 Node 5 ETL Ускорители аналитики: Data Mining, … Основной аналитический сервер

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .

РЕКОМЕНДАТЕЛЬНЫЕ СИСТЕМЫ

Рекомендации

BIG DATA

ТЕХНОЛОГИИ

Page 16: 17.10 - 17 - SAS · (Enterprise Data Warehouse) Node 3 Node 4 Node 5 ETL Ускорители аналитики: Data Mining, … Основной аналитический сервер

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .

Пользователь X

Продукт

Продукт

1

Продукт

2

Продукт

3

Продукт

4

Продукт

5…

Пользователь 1 3 2 5 4 5

Пользователь 2 - - - 1 1

Пользователь 3 1 - 2 5 -

Пользователь 4 - - 1 2 5

Пользователь 4 3.21 4.82 1 2 4.5

Наилучшее следующее предложение

Матрица рейтингов

продуктов для

пользователей

(или объем

потребления

товаров/услуг)

Предсказанный

рейтинг каждого

продукта

пользователя

BIG DATA

ТЕХНОЛОГИИ

РЕКОМЕНДАТЕЛЬНЫЕ СИСТЕМЫ

Page 17: 17.10 - 17 - SAS · (Enterprise Data Warehouse) Node 3 Node 4 Node 5 ETL Ускорители аналитики: Data Mining, … Основной аналитический сервер

Copyright © 2015, SAS Institute Inc. All right reserved.

[email protected]

Контакты: