innovation day big data in telco boris poddubny stc... · 2013. 4. 18. · data summaries data...

12
© 2013 IBM Corporation IBM Telecommunications Industry Опыт и компетенции IBM для решения задач обработки «больших данных» в отрасли связи на примере задачи анализа записей CDR ПоддубныйБорис Директорпоразвитиюбизнеса [email protected]

Upload: others

Post on 09-Oct-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Innovation Day Big Data in Telco Boris Poddubny STC... · 2013. 4. 18. · Data summaries Data Mining Scoring Engine Online Learning with Offline Analytics Data mining Warehouse SNAzzy,

© 2013 IBM Corporation

IBM Telecommunications Industry

Опыт и компетенции IBMдля решения задачобработки «большихданных» в отрасли связина примере задачи анализазаписей CDR

Поддубный Борис

Директор по развитию бизнеса

[email protected]

Page 2: Innovation Day Big Data in Telco Boris Poddubny STC... · 2013. 4. 18. · Data summaries Data Mining Scoring Engine Online Learning with Offline Analytics Data mining Warehouse SNAzzy,

© 2013 IBM Corporation2

IBM Telecommunications Industry

Технологии доступа 4G/LTE, Смартфоны, M2M устройства

Фокус на аналитике до устройства, абонента, ресурса сети

Социализация + Мобильность + Местоположение

Основные причины возникновения проблемы больших данных

Большеданных

Сложностьданных

Требованияк аналитикеи точность

Page 3: Innovation Day Big Data in Telco Boris Poddubny STC... · 2013. 4. 18. · Data summaries Data Mining Scoring Engine Online Learning with Offline Analytics Data mining Warehouse SNAzzy,

© 2013 IBM Corporation3

IBM Telecommunications Industry

Основные направления использования технологий обработки большихданных (общее количество сценариев превышает 200)

� Тарификация в реальном масштабе времени

� Управление предоставлением услуг в реальном времени

(н-р. видео контент)

� Обработка и анализ звонковой информации CDR в реальноммасштабе времени

� Маркетинг реального времени по местоположению абонента

� Анализ мошенничества в реальном времени и

противодействие

� Анализ социальных сетей

� Формирование профиля 360° абонента

� Классификация абонентов в реальном времени вместо

сегментации для кампаний

� Ускорение традиционной аналитики (хранилища)

� Автоматическое обслуживание в контактном центре (Watson)

Page 4: Innovation Day Big Data in Telco Boris Poddubny STC... · 2013. 4. 18. · Data summaries Data Mining Scoring Engine Online Learning with Offline Analytics Data mining Warehouse SNAzzy,

© 2013 IBM Corporation4

IBM Telecommunications Industry

Источники и типы данных для расширенной аналитики реальноговремени

CDRs

Биллинг

CRM

LBS

местополож?

Управление

счетом

Интернет

Сеть

МиллионыМиллионыМиллионыМиллионысобытийсобытийсобытийсобытийввввсексексексек

Разрыв соединения

Исходящие роуминг

звонкиДлительность звонков

Свободные минуты

Contract Expiration

Торговый центр

Пополнение счета

Миним. остаток

Начисление

Перегрузка сети

Уплаченные счета

Acquired new products

Change contracts

Репутация брэнда

Склонности

Абонент в роуминге

Абонент дома

Обрывы связи

Близость к объекту

Вход в торговый центр

Оплаченные начисления

Поведение потребления

Просмотр видео

ВажныеВажныеВажныеВажныесобытиясобытиясобытиясобытия

ЗадержкаЗадержкаЗадержкаЗадержкаввввмиллисекундымиллисекундымиллисекундымиллисекунды

Хранилище Профиль

абонента

Анализ соцмедиа

Изменение тарифа

Сбои сети

Потребности

Взаимодействие

ИнформацияИнформацияИнформацияИнформацияккккдействиюдействиюдействиюдействию

Page 5: Innovation Day Big Data in Telco Boris Poddubny STC... · 2013. 4. 18. · Data summaries Data Mining Scoring Engine Online Learning with Offline Analytics Data mining Warehouse SNAzzy,

© 2013 IBM Corporation5

IBM Telecommunications Industry

Потоковая обработка и анализ звонковой информации Call Detail Record (CDR)

� Информация об услугах формируется сетевыми элементами

� Содержит информацию о соединении и маршруте звонка– calling number, called number, charged number, when the call

started, duration of the call, call-type (voice, sms, etc.)–Может также содержать: exchange ID, seq. no, result, routing info,

fault condition, etc.

� Объемы– Bharti: 1Млрд CDRs в день (1.5 TB в день)– IDEA: 650 Млн CDRs в день

� Решаемые задачи в реальном масштабе времени:–Предбиллинг–Анализ сетевого трафика–Обнаружение мошенничества (фрод)–Построение новых услуг–Предупреждение оттока– …

� Планируется расширение на другие типы данных– Web browsing

Page 6: Innovation Day Big Data in Telco Boris Poddubny STC... · 2013. 4. 18. · Data summaries Data Mining Scoring Engine Online Learning with Offline Analytics Data mining Warehouse SNAzzy,

© 2013 IBM Corporation6

IBM Telecommunications Industry

Традиционная архитектура с использованием хранилища данных

Business logic

• CDR сбор• CDR фильтрация• CDR корреляция

Часы и даже дни!

Хранилищ

е

Данных

БизнесБизнесБизнесБизнесАналитикаАналитикаАналитикаАналитика

Исходные

Исходные

Исходные

Исходныеданные

данные

данные

данные

Cloud

Дополнит

данные

Page 7: Innovation Day Big Data in Telco Boris Poddubny STC... · 2013. 4. 18. · Data summaries Data Mining Scoring Engine Online Learning with Offline Analytics Data mining Warehouse SNAzzy,

© 2013 IBM Corporation7

IBM Telecommunications Industry

Архитектура потоковой обработки на Stream

Stream Processing

CDR collectionCDR Filtering CDR stitching

Data summaries

Data MiningScoring Engine

Online Learning with Offline Analytics

Data miningWarehouse

SNAzzy, TABI

Business Intelligence

Real-time dashboards

Data warehouse

Mediation

Real-time Services

Online Monitoring

Tel

co D

ata

Co

nte

xt Weather

GPS Location, Transactions,Personal Health Monitor etc.

Service Infrastructure

Cloud

Support data

Page 8: Innovation Day Big Data in Telco Boris Poddubny STC... · 2013. 4. 18. · Data summaries Data Mining Scoring Engine Online Learning with Offline Analytics Data mining Warehouse SNAzzy,

© 2013 IBM Corporation8

IBM Telecommunications Industry

Архитектура решения задачи предбиллинга

Business logic

• CDR collection• CDR Filtering • CDR stitching

FileSystem

Usage SummaryStatistics

- Sample CDR Data~100K CDRs- Sample Ericsson business logic

FilteringAggregation (stitching)

Data transformation- Summary usage statistics

Tel

co D

ata

FileSystem

CDR ASCII dump

Page 9: Innovation Day Big Data in Telco Boris Poddubny STC... · 2013. 4. 18. · Data summaries Data Mining Scoring Engine Online Learning with Offline Analytics Data mining Warehouse SNAzzy,

© 2013 IBM Corporation9

IBM Telecommunications Industry

Задача построения графа социальной сети SNA на Streams

Data warehouse(file system)

Evolving Social Network

Graph Edges and Nodes

One CDR fileProcess entire CDR file

Create graph structureNode & edge files

Tel

co D

ata

Page 10: Innovation Day Big Data in Telco Boris Poddubny STC... · 2013. 4. 18. · Data summaries Data Mining Scoring Engine Online Learning with Offline Analytics Data mining Warehouse SNAzzy,

© 2013 IBM Corporation10

IBM Telecommunications Industry

Анализ направлений звонков на Streams

Stream Processing

PreprocessingData Aggregation

Association RulesScoring Engine

Online Trigger of Offline Analytics

Mini-Batch Updates

TABI/PML

Business Logic

Cal

l Det

ail R

eco

rds

Data Repository

Build Association RulesCell locations of calls

Визуальное

представление

поведения

Обработка CDRs длявизуализации географической направленности звонков и выявления шаблонов

поведения абонентов

Page 11: Innovation Day Big Data in Telco Boris Poddubny STC... · 2013. 4. 18. · Data summaries Data Mining Scoring Engine Online Learning with Offline Analytics Data mining Warehouse SNAzzy,

© 2013 IBM Corporation11

IBM Telecommunications Industry

Streams как общая платформа преобразований данных

ETL Hub

• CDR collection• CDR Filtering • CDR stitching

Revenue Assurance

Tel

co D

ata

CDR Data Stream

Business Intelligence

Fraud Management

ПроизводительностьПроизводительностьПроизводительностьПроизводительностьсистемысистемысистемысистемынананана Streamsпозволяетпозволяетпозволяетпозволяетосуществлятьосуществлятьосуществлятьосуществлять 200 ппппреобразованийреобразованийреобразованийреобразованийданныхданныхданныхданныхнанананапотокепотокепотокепотоке

Page 12: Innovation Day Big Data in Telco Boris Poddubny STC... · 2013. 4. 18. · Data summaries Data Mining Scoring Engine Online Learning with Offline Analytics Data mining Warehouse SNAzzy,

© 2013 IBM Corporation12

IBM Telecommunications Industry

Основные преимущества потоковой обработки звонковой информации

ПараллеПараллеПараллеПараллельныйльныйльныйльный

потоковпотоковпотоковпотоковыйыйыйыйвводвводвводввод

ПарсингПарсингПарсингПарсингТрансформациТрансформациТрансформациТрансформаци

яяяяиииипоискпоискпоискпоиск

ХранилХранилХранилХранилищеищеищеище

CDR

ФильтрФильтрФильтрФильтр

дедуплидедуплидедуплидедупликациикациикациикации

Контр

Контр

Контр

Контр

точка

точка

точка

точка

Параллель

Параллель

Параллель

Параллель

ная

ная

ная

ная

запись

запись

запись

запись

БазаданныеметаинформацииВыходныеВыходныеВыходныеВыходные

витринывитринывитринывитрины

CRM ФайлыФайлыФайлыФайлыданнданнданнданн

АналитическАналитическАналитическАналитическиеиеиеиепанелипанелипанелипанели

10x снижениевычислительноймощности

10x снижениеобъемахранения

10x уменьшениевремениобработки

2x ускорениеразработки

ОбеспечениеОбеспечениеОбеспечениеОбеспечениелогированиялогированиялогированиялогированиядлядлядлядлятолерантноститолерантноститолерантноститолерантностикккксбоямсбоямсбоямсбоям

Bloom State

Checkpointing

CD

R

Sta

tis

tics