business analytics & bigdata - uclm

49
Business Analytics & BigData 17-04-2015 Joan Massegú Business Analytics Solution Architect taller smact

Upload: others

Post on 02-Nov-2021

3 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Business Analytics & BigData - UCLM

Business Analytics & BigData

17-04-2015

Joan MassegúBusiness Analytics Solution Architect

taller smact

Page 2: Business Analytics & BigData - UCLM

taller smact

Índice

© avanttic Consultoría Tecnológica, S.L. 2

① Introducción

② Data Management

③ Data Integration

④ Data Analytics

⑤ Infraestructura Oracle para Big Data

⑥ Casos de Clientes

⑦ Conclusiones

Page 3: Business Analytics & BigData - UCLM

taller smact

Introducción

3 © avanttic Consultoría Tecnológica, S.L.

¿Qué es Big Data?

o Gartner: high-volume, -velocity and -variety

information assets that demand cost-effective,

innovative forms of information processing for

enhanced insight and decision making

o McKinsey: datasets whose size is

beyond the ability of typical database

software tools to capture, store, manage,

and analyze

o Forrester: Techniques and Technologies

that Make Handling Data at Extreme Scale

Economical

Es el área de conocimiento de IT que permite a las

organizaciones tomar decisiones fundamentadas sobre

enormes volúmenes de cualquier tipo de datos justo a

tiempo.

Page 4: Business Analytics & BigData - UCLM

taller smact

Introducción

4 © avanttic Consultoría Tecnológica, S.L.

Las 3 V: el origen del Big Data

Volúmen Velocidad Variedad

Procesos Cosas Personas

Page 5: Business Analytics & BigData - UCLM

taller smact

Introducción

5 © avanttic Consultoría Tecnológica, S.L.

Impacto de Big Data en la organización

Page 6: Business Analytics & BigData - UCLM

taller smact

Introducción

6 © avanttic Consultoría Tecnológica, S.L.

Data Reservoir

Data Lake, Data Pool >>> Data Reservoir

Economics of the ReservoirHadoop Big Data Reservoir vs. “Data Pool” Inside EDW

• Different calculators, similar figures:• Hadoop Cost/TB ~$300• Teradata Cost/TB ~$16,000• Netezza Cost/TB ~10,000

• Lower cost system for Staging, Preparation and Archival

Page 7: Business Analytics & BigData - UCLM

taller smact

Introducción

7 © avanttic Consultoría Tecnológica, S.L.

¿Qué necesitamos hacer?

DECIDIR

ADQUIRIR ORGANIZAR

ANALIZAR

para Adquirir,Organizar y Analizar

Información

de la nueva Infraestructura

Procesos

Analítica

CICLO DE VIDA

BIG DATA

NUEVOS

REQUERIMIENTOS

On-Premise Cloud

NUEVO ESCENARIO

Page 8: Business Analytics & BigData - UCLM

taller smact

Introducción

8 © avanttic Consultoría Tecnológica, S.L.

¿Con qué objetivo y cómo lo hacemos?

Rápida Respuesta a nuevas

preguntas

Alimentar el Reservoir

Más y mejores predicciones

Acelerar decisiones

“Data-Driven”

Descubrir Información Analizar Decidir

Ingerir

datos

Organizar

e Integrar

Datos estructurados

y no estructurados

Conocimientopara

Decidir

Page 9: Business Analytics & BigData - UCLM

taller smact

Introducción

9 © avanttic Consultoría Tecnológica, S.L.

Visión de Oracle del escenario Big Data

FlujosDe

Datos

DatosInternos

Datos Web y Redes Sociales

Page 10: Business Analytics & BigData - UCLM

taller smact

Índice

© avanttic Consultoría Tecnológica, S.L. 10

① Introducción

② Data Management

③ Data Integration

④ Data Analytics

⑤ Infraestructura Oracle para Big Data

⑥ Casos de Clientes

⑦ Conclusiones

Page 11: Business Analytics & BigData - UCLM

taller smact

Data Management

11 © avanttic Consultoría Tecnológica, S.L.

Big Data Management

FlujosDe

Datos

DatosInternos

Datos Web y Redes Sociales

Page 12: Business Analytics & BigData - UCLM

taller smact

Data Management

• Hadoop es un framework para proceso masivo y distribuido

• Cluster Hadoop: mínimo 3 nodos

• Hadoop File System (HDFS)

• Tolerante a fallos

• Fácilmente escalable horizontalmente

• HDFS no indexa

• Necesidad otras herramientas acceso datos

(HBase, NoSQL)

• Proceso de datos Paralelo (Map/Reduce)

• Fracciona y Distribuye los datos

• Coordina la ejecución del código

• Verifica la ejecución del código

• Recoge los resultados (finales o los envía al siguiente paso)

12 © avanttic Consultoría Tecnológica, S.L.

Hadoop

Page 13: Business Analytics & BigData - UCLM

taller smact

Data Management

13 © avanttic Consultoría Tecnológica, S.L.

Hadoop Distribución Cloudera 5 EDH

Apache Oozie Apache Oozie Apache Hive

Apache Flume y SQOOP

Fuse-DFS Hue Hue SDK

Apache Pig, Hive, Mahout

Apache HBase

Apache Zookeeper

• Apache Hadoop con YARN, MR2 y Spark• Cloudera Impala• HBase (con soporte para Accumulo)• Cloudera Search

• Cloudera Manager• Back-up & Disaster Recovery (BDR)• Navigator

Page 14: Business Analytics & BigData - UCLM

taller smact

Data Management

• BD distribuida, basada en Oracle Berkeley DB

• Almacenamiento replicado (HA)

• Almacena parejas de valores (Key-Value)

• Driver inteligente mantiene mapa de topología de almacenamiento

• Responsable del sharding

• Balanceo de carga

• Casos de uso

• Almacenamiento baja latencia

• Consulta rápida por clave (Key)

14 © avanttic Consultoría Tecnológica, S.L.

Oracle NoSQL

Page 15: Business Analytics & BigData - UCLM

taller smact

Data Management

15 © avanttic Consultoría Tecnológica, S.L.

Oracle Data Base Enterprise Server 12c

Partition Outer JoinData Mining en la BDExpresiones regulares

Rollup, grouping sets, CubePivotar SQLWITH recursivoListAgg, N-ésimo valor

Pattern matchingSentencia Top N Approx Count distinctSoporte JSON

• Mejoras en external tables (Hadoop, …)

• Big Data SQL

• Evolución continua de funcionalidades analíticas en SQL

• In-Database Analytics Platform

• Spatial analytics

• ORE

• MapReduce

• Mejoras en expresiones regulares (soporte multilenguaje)

• In-memory DB

Page 16: Business Analytics & BigData - UCLM

taller smact

Data Management

16 © avanttic Consultoría Tecnológica, S.L.

Big Data SQL

• Combinar en una consulta SQL datos residentes en

• BD Oracle

• NoSQL

• Hadoop

• Permite trasladar políticas de seguridad y acceso de BD a Hadoop y NoSQL

• Óptimo rendimiento con SmartScan

• Data-local scans

• Proyección columnas

• Evaluación de predicados

• Funciones complejas evalúan en origen

SELECT w.sess_id, c.nameFROM web_logs w, customers cWHERE w.source_country = 'Brazil'AND w.cust_id = c.customer_id;

web_logs customers

Page 17: Business Analytics & BigData - UCLM

taller smact

Índice

© avanttic Consultoría Tecnológica, S.L. 17

① Introducción

② Data Management

③ Data Integration

④ Data Analytics

⑤ Infraestructura Oracle para Big Data

⑥ Casos de Clientes

⑦ Conclusiones

Page 18: Business Analytics & BigData - UCLM

taller smact

Data Integration

18 © avanttic Consultoría Tecnológica, S.L.

Big Data Management

FlujosDe

Datos

DatosInternos

Datos Web y Redes Sociales

Page 19: Business Analytics & BigData - UCLM

taller smact

Data Integration

• Herramienta de replicación de datos Real Time

• Securizado, No Invasivo y tolerante a fallos

• Transformaciones básicas (in-row) o integración ODI

• Flume

• HDFS

• Hive

• HBase

19 © avanttic Consultoría Tecnológica, S.L.

Oracle Goldent Gate (OGG) 12c for Big Data

• Adaptador OGG para Java

• NoSQL

• Kafka

• Storm

• Spark

Page 20: Business Analytics & BigData - UCLM

taller smact

Data Integration

• Software diseñado y optimizado para integrar datos entre Hadoop y

Oracle

• Componentes

• Conector Oracle SQL para HDFS

• R Advanced Analytics para Hadoop

• Oracle Loader para Hadoop

• Xquery para Hadoop

• Oracle Data Integrator

• Conjunto de KM’s para ODI

• Hasta 15 TB/h sobre Engineered Systems

20 © avanttic Consultoría Tecnológica, S.L.

Oracle Big Data Connectors

Page 21: Business Analytics & BigData - UCLM

taller smact

Data Integration

21 © avanttic Consultoría Tecnológica, S.L. 21 © avanttic 2015 – Reservados todos los derechos

Oracle Data Integrator (ODI)

• Diseño declarativo (KM)

• Desarrollo orientado a flujo

• Reutilización de código

• Rendimiento optimizado para Oracle

• Depuración paso a paso

• Funcionalidad extensible

Page 22: Business Analytics & BigData - UCLM

taller smact22

Data Integration

© avanttic Consultoría Tecnológica, S.L.

Oracle Data Integrator (ODI)

LKM - Load

IKM - Integración

CKM - Check

JKM - Journalize

RKM - Reverse Eng.

SKM - Service

XKM - Sort

Tipos de KM

Page 23: Business Analytics & BigData - UCLM

taller smact

Data Integration

• LKM SQL to Hive SQOOP

• LKM SQL to File SQOOP Direct

• LKM SQL to HBase SQOOP Direct

• LKM HBase to SQL SQOOP

• LKM File to SQL SQOOP

• LKM Hive to SQL SQOOP

• LKM File to Hive LOAD DATA

• LKM File to Hive LOAD DATA Direct

• LKM HBase to Hive HBASE-SERDE

• LKM Hive to HBase Incremental

Update HBASE-SERDE Direct

• IKM Hive Append

• LKM Hive to File Direct

• LKM Hive to Oracle OLH-OSCH

• LKM File to Oracle OLH-OSCH Direct

• LKM Hive to Oracle OLH-OSCH

• LKM Hive - Oracle OLH-OSCH Direct

• XKM Hive Sort

23 © avanttic Consultoría Tecnológica, S.L.

Mejoras y nuevos KM’s de ODI para Big Data

LKM

JKM

• Lenguajes implementación Mappings

• Hive

• Spark

• Pig

• SQOOP

• Orquestación y monitorización tareas

• ODI Agent

• Oozie

• Weblogic Hive JDBC driver

• Recupera Hadoop Audit Logs

• Nuevos componentes para mappings

• Flatten

• Jagged

• ODI Tools para acceso a HDFS

Page 24: Business Analytics & BigData - UCLM

taller smact

Data Integration

24 © avanttic Consultoría Tecnológica, S.L.

ODI frente a las alternativas

Page 25: Business Analytics & BigData - UCLM

taller smact

Índice

© avanttic Consultoría Tecnológica, S.L. 25

① Introducción

② Data Management

③ Data Integration

④ Data Analytics

⑤ Infraestructura Oracle para Big Data

⑥ Casos de Clientes

⑦ Conclusiones

Page 26: Business Analytics & BigData - UCLM

taller smact

Data Analytics

26 © avanttic Consultoría Tecnológica, S.L.

Big Data Management

FlujosDe

Datos

DatosInternos

Datos Web y Redes Sociales

Page 27: Business Analytics & BigData - UCLM

taller smact

Data Analytics

• Manipulación de Datos

• 80% esfuerzo evaluando y preparando datos

• Valor de los datos no es evidente

• Formatos no familiares usuarios negocio

• Complejidad Herramientas

• BI existentes no diseñadas para Hadoop

• Entorno Hadoop requieren especialización

• Emergentes poca funcionalidad

27 © avanttic Consultoría Tecnológica, S.L.

Oracle Big Data Discovery (BDD)

Una herramienta que permita

• Buscar

• Explorar

• Transformar

• Sacar conclusiones

• Compartir resultados

¿Cómo explotar el Data Reservoir?

Dif

icu

ltad

es

Hac

e f

alta

Page 28: Business Analytics & BigData - UCLM

taller smact

Data Analytics

The Visual Face of Hadoop

28 © avanttic Consultoría Tecnológica, S.L.

Oracle Big Data Discovery (BDD)

Page 29: Business Analytics & BigData - UCLM

taller smact

Data Analytics

29 © avanttic Consultoría Tecnológica, S.L.

Oracle Big Data Discovery (BDD)

Combinar visualizaciones diversasCompartir y publicar resultados

De manera segura

Explorar atributos por tipo,Evaluar calidad,

datos anómalos, …

Acceso rico e interactivo a TODOS los datos del catálogo Hadoop

Anotaciones, agregaciones sobre juegos de datos

Page 30: Business Analytics & BigData - UCLM

taller smact

Data Analytics

Oracle Big Data Cloud

• Nativo Hadoop: sin movimientos ni

subconjuntos de datos

• Escalable a Petabytes sin perder rendimiento

• Tecnología punta: combina simplicidad de

búsqueda y análisis interactivo

• Herramientas análisis estadístico y predictivo

integradas

• Sofisticadas herramientas profiling,

transformación y enriquecimiento de datos

30 © avanttic Consultoría Tecnológica, S.L.

Page 31: Business Analytics & BigData - UCLM

taller smact

• Limitaciones de R

• Software monolítico

“cliente+servidor”, monousuario

• Carga en memoria los datos

antes de procesarlos …

• Oracle Enterprise R

• Se integra en BD eliminando restricción memoria

• Integra R en aplicaciones y cuadros de mando

• Elimina el tráfico de datos

Data Analytics

31 © avanttic Consultoría Tecnológica, S.L.

Oracle Enterprise R (ORE)

Page 32: Business Analytics & BigData - UCLM

taller smact

• Conector R para Hadoop

• Permite combinar BD, HDFS y ficheros locales en un mismo proceso

• Interface a datos HDFS y infraestructura Hadoop

Data Analytics

32 © avanttic Consultoría Tecnológica, S.L.

Oracle Enterprise R (ORE)

Page 33: Business Analytics & BigData - UCLM

taller smact

Data Analytics

• Herramienta Data Discovery

• Datos estructurados y No estructurados

• Carga de datos en Autoservicio o en Batch

• Integración y Enriquecimiento de datos

• Potente motor de búsqueda

• Análisis de sentimiento

• Detección patrones

33 © avanttic Consultoría Tecnológica, S.L.

Oracle Endeca Information Discovery (OEID)

EID Studio

Crear y Compartir

discovery applications

State

CA (1,203)

NY (512)

IL (312)

MA (211)

CO (102)

Brand

Nikon (3,453)

Canon (1,512)

Fuji (322)

Panasonic (211)

search..

purchase intent

passionate user-

friendly loyalty

Price Range

Source

ORCL (301,203)

SAP (11,512)

EDW (10,312)

Discovery

ApplicationEID Integrator

Structured Data

Sources

Unstructured

Content

Innovative

ETL

Web and File

Crawling

Text

EnrichmentTEX

T

Endeca Server

Self-Service

Provisioning

Sharing and

Collaboration

Drag & Drop

Composition

Intuitive

Exploration

Page 34: Business Analytics & BigData - UCLM

taller smact

Data Analytics

• Suite con toda la funcionalidad BI tradicional

• Movilidad (iOS, Android)

• Federación BD heterogéneas

34 © avanttic Consultoría Tecnológica, S.L.

Oracle Business Intelligence (OBI)

InteractiveDashboards

Geospatial Visualization

MS-Office Integration

Mobile Reports

Applications & Portals

Search Ad-hocQueries

Collaboration

Scorecards

Files,

Excel, XML

Business

ProcessData Warehouse

Data Mart

OLAP

EssbaseOLTP & ODS

Systems

Page 35: Business Analytics & BigData - UCLM

taller smact

Data Analytics

• Es un Business Intelligence completo, con todos

los Datos, Tipos de Análisis & Clientes

• Self-service: Carga de Datos, Mapeo & KPIs

• Categoría empresarial: Aislamiento de Datos

Seguros; Alta Disponibilidad; Escalable de 10s a

1000s de Usuarios

• Completamente Gestionado: Patched, Backed

Up, Upgraded

• Extensión de Aplicaciones SaaS: posee

conectores para Oracle SaaS y Aplicaciones

On-Premise

• Avanza alguna función de OBI 12c

35 © avanttic Consultoría Tecnológica, S.L.

Business Intelligence Cloud Service (BICS)

Page 36: Business Analytics & BigData - UCLM

taller smact

Índice

© avanttic Consultoría Tecnológica, S.L. 36

① Introducción

② Data Management

③ Data Integration

④ Data Analytics

⑤ Infraestructura Oracle para Big Data

⑥ Casos de Clientes

⑦ Conclusiones

Page 37: Business Analytics & BigData - UCLM

taller smact

Infraestructura Oracle para Big Data

37 © avanttic Consultoría Tecnológica, S.L.

Oracle Big Data Platform

Baja densidad, Débilmente estructurados

Alta densidad, estructurados, relacionados

Big Data Appliance Exadata

InfiniBand

Acquire Organize Analyze & VisualizeStream

Exalytics

InfiniBand

OBIEID RTDBDD

OG

GO

DI

Data Reservoir EDWH

Page 38: Business Analytics & BigData - UCLM

taller smact

• Mínimo 6 Nodos / Máximo 18

• Hardware x Nodo

• 2 Procesadores x 18 Cores Intel® Xeon® E5-2699 V3 2.3 GHz

• 128 GB RAM (4 * 16 DDR4) ampliable a 768 GB nodo

• Controlador de disco HBA con 512MB cache de escritura

(respaldada con batería)

• 12 discos SAS de alta capacidad (4TB) a 7,200 RPM

• 2 Puertos Infiniband QDR (40Gb/s)

• 4 Puertos Ethernet a 10 Gb

• 1 Puerto ILOM Ethernet

• Capacidad máxima Full Rack• 288 Cores

• 13.824 Gb de RAM (todos los nodos ampliados)

• 864 Tb de disco

Infraestructura Oracle para Big Data

38 © avanttic Consultoría Tecnológica, S.L.

Big Data Appliance

X5-2

Page 39: Business Analytics & BigData - UCLM

taller smact

Infraestructura Oracle para Big Data

39 © avanttic Consultoría Tecnológica, S.L.

Big Data Appliance

X5-2• Oracle Linux 6.4 (Kernel Unbreakable Ent.)

• Software instalado

• Cloudera Enterprise Data Hub (EDH) Ver. 5

• Cloudera Manager

• Oracle R

• Oracle NoSQL Database Community Ed.

• Plug-In para Enterprise Manager

• Software opcional

• Oracle Virtual Machine

• Big Data SQL

• Oracle NoSQL Enterprise Ed.

• Oracle Big Data Connector

• Oracle R Enterprise

• Seguridad

• Kerberos

• Apache Sentry

• Audit Vault y DB Firewall for Hadoop Auditing

Page 40: Business Analytics & BigData - UCLM

taller smact

Infraestructura Oracle para Big Data

• Optimizado para todo tipo de BD

• Redundancia total para HA

• Capacidad máxima de un Full Rack

• Hasta 672 TB HD storage (Raw) y 48 TB Flash

• Hasta 684 CPU cores y 14.6.TB RAM (DB)

• Hasta 288 CPU cores (SQL processing in storage)

• De 2 a 19 DB servers y de 3 a 18 Storage Servers

• Hasta 230 TB de Flash Storage

• 40 Gb/second (QDR) InfiniBand

• Funcionalidad

• Compresión columnar híbrida (Query optimized/Archive)

• Smart Flash Cache

40 © avanttic Consultoría Tecnológica, S.L.

Exadata

Full RackHalf RackQuarter Rack Multi Rack

X5-2

Page 41: Business Analytics & BigData - UCLM

taller smact

Infraestructura Oracle para Big Data

• Hardware Optimizado

• Hasta 128 cores

• 4 TB RAM / 6.4 TB Flash

• Hasta 9.6 TB HD

• 4 puertos Infiniband 40 Gbps

• Software analítico

• OBI Foundation Suite

• TimesTen (in-memory DB)

• Essbase [opcional]

• Endeca [opcional]

• Aceleradores OBI, BIP, Essbase

41 © avanttic Consultoría Tecnológica, S.L.

Exalytics

T5-8

Page 42: Business Analytics & BigData - UCLM

taller smact

Índice

© avanttic Consultoría Tecnológica, S.L. 42

① Introducción

② Data Management

③ Data Integration

④ Data Analytics

⑤ Infraestructura Oracle para Big Data

⑥ Casos de Clientes

⑦ Conclusiones

Page 43: Business Analytics & BigData - UCLM

taller smact

Casos de clientes

43 © avanttic Consultoría Tecnológica, S.L.

Aplicaciones empresariales de Big Data

ENTRETENIMIENTO Y MEDIOS COMUNICACIÓNEficiencia publicidad,Audiencia

COMUNICACIONESPublicidad según ubicación, Calidad del servicio

EDUCACION E INVESTIGACIÓNAnálisis SensoresExperimentos,Estudios mayor Proyección

BIENES DE CONSUMOAnálisis de sentimiento: está de moda, problemas

SALUDSensores en pacientes, Monitorización, Calidad atención

MEDICINA Y CIENCIAAnálisis clínicos,Análisis del genoma

TECNOLOGIA E INDUSTRIACalidad en la producción,Análisis de garantías

ENERGIAAnálisis de sensores en perforaciones de exploración

SERVICIOS FINANCIEROSAnálisis de Riesgo & CarteraNuevos productos

AUTOMOCIONVehículos con sensores reportando ubicación, problemas, …

DISTRIBUCIÓNSentimiento del consumidor,Optimización marketing

SEGURIDAD Y DEFENSAAnálisis de amenazas: monitorización de redes sociales, análisis de imágenes

VIAJES Y TRANSPORTESAnálisis de sensores para optimizar flujo de tráfico,Satisfacción del cliente

SUMINISTROSAnálisis inteligente del consumo para planificar capacidad de las redes

SERVICIOS ON-LINE / SOCIAL MEDIACompatibilidad entre Personas o carreras,OptimizaciónSitios Web

Page 44: Business Analytics & BigData - UCLM

taller smact

Índice

© avanttic Consultoría Tecnológica, S.L. 44

① Introducción

② Data Management

③ Data Integration

④ Data Analytics

⑤ Infraestructura Oracle para Big Data

⑥ Casos de Clientes

⑦ Conclusiones

Page 45: Business Analytics & BigData - UCLM

taller smact

Conclusiones

45 © avanttic Consultoría Tecnológica, S.L.

Evolución del perfil del “Data Scientist”

Discovery

Data Reservoirs

Business Intelligence

Data Warehouse

Page 46: Business Analytics & BigData - UCLM

taller smact

Conclusiones

46 © avanttic Consultoría Tecnológica, S.L.

Trabajar como Consultor BA

• Requiere perfil polivalente

• Conocimiento negocio

• Área de negocio técnicamente transversal

Diseño lógico/ BBDD / SQL /

Tunning

Arquitectura/ Configuración

Análisis Estadístico/ Predicción

Procesos Batch

Integración Datos / Tiempo Real

Information discovery /Visualización de datos

Usuarios/ Negocio

Page 47: Business Analytics & BigData - UCLM

taller smact

Conclusiones

47 © avanttic Consultoría Tecnológica, S.L.

3 + 2 + 1 = Las 6 V de Oracle

Page 48: Business Analytics & BigData - UCLM

taller smact

Conclusiones

48 © avanttic Consultoría Tecnológica, S.L.

Oracle la mejor elección para Big Data

• Cuenta con el 55% del mercado RDBMS y gran experiencia en EDWH

• Familia de Engineered Systems

• Solución integrada y completa para Big Data Analytics

• Data Management: SQL, NoSQL, Enterprise R, Big Data Conectors, In-memory

• Data Integration: Única herramienta (ODI), Real-time (OGG)

• Data Analytics: Big Data Discovery, Endeca, R, OBI

Big Data Appliance

Exadata

Exalytics

Page 49: Business Analytics & BigData - UCLM

el partner

[email protected]

© avanttic Consultoría Tecnológica, S.L.

BARCELONA

Aragó 182, 4ª planta

08011 Barcelona

Tel. 93 151 84 51

MADRID

Paseo de la Castellana, 135, 7ª

28046 Madrid

Tel. 91 116 17 89

49