building the modern architecture of hybrid data for big data with microsoft data platform and apache...

36
Construyendo la moderna arquitectura de datos híbridos para Big Data con Apache Hadoop y Microsoft Data Platform José Redondo Correo: [email protected] Twitter: @redondoj LinkedIn: http://co.linkedin.com/in/redondoj Blog: http://redondoj.wordpress.com

Upload: jose-redondo

Post on 25-May-2015

400 views

Category:

Technology


1 download

DESCRIPTION

The age of knowledge: Building the modern architecture of hybrid data for Big Data with Microsoft and Apache Hadoop Considering that knowledge is a value added for businesses today, in this exhibition show in a simple way as Microsoft and Hortonworks unite its efforts, in order to combine their data platforms ("Hortonworks Data Platform" and Microsoft: Windows, Office, SQL Server, Parallel Data Warehouse and Azure), to build with this, the modern architecture of data hybrid for Big Data.

TRANSCRIPT

Page 1: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

Construyendo la moderna arquitectura de datos híbridos para Big Data con Apache Hadoop y Microsoft Data Platform

José RedondoCorreo: [email protected]: @redondojLinkedIn: http://co.linkedin.com/in/redondojBlog: http://redondoj.wordpress.com

Page 2: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

Expositor CTO – DPA Bits America SAS Colombia – U.S.A.

DPA SolidQ

MCP | MCTS – MS SQL Server; MTA – DAF

Page 3: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

SQL Saturday Sponsors

Page 4: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

Billones de datos INGRESANDO en nuestros ECOSISTEMAS de bases de

datos

Page 5: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

Construyendo la moderna arquitectura de datos híbridos para Big Data con Apache Hadoop y Microsoft Data Platform

Page 6: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

AGENDA

Introducción Cual es la Arquitectura Moderna de

Datos Híbridos (MDA)? Apache Hadoop en la MDA Híbrida La MDA Híbrida y Microsoft

Page 7: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

INTRODUCCIÓN

Page 8: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

Arquitectura de Datos ActualA

PLI

CA

CIO

NES Business

Analytics

AplicacionesPersonalizad

as

AplicacionesEmpaquetad

as

SIS

TEM

A D

E

BA

SES

DE D

ATO

S

REPOSITORIOS

RDBMS

EDW MPP

OR

IGEN

ES

D

ED

ATO

S Orígenes Existentes(CRM, ERP,

Clickstream, Logs)

4,2 ZB en 2013

85% de nuevos tipos de datos

15x datos maquina para 2020

40ZB para 2020

Page 9: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

Arquitectura Moderna de Datos HabilitadaA

PLI

CA

CIO

NES Business

Analytics

AplicacionesPersonalizad

as

AplicacionesEmpaquetad

as

SIS

TEM

A D

E

BA

SES

DE D

ATO

S

REPOSITORIOS

RDBMS

EDW MPP

OR

IGEN

ES

D

ED

ATO

S Orígenes Existentes(CRM, ERP, Clickstream,

Logs)

Orígenes Emergentes(Sensores, Semánticos, Geo, No Estructurados)

DESPLIEGUE & PRUEBAS

HERRAMIENTAS DE DATOS Y DESARROLLO

ADMINISTRACIÓN & MONITOREO

HERRAMIENTAS OPERACIONES

Page 10: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

CUAL ES LA ARQUITECTURA MODERNA DE DATOS HIBRIDOS (MDA)?

Page 11: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

El Poder de la Arquitectura Moderna de Datos Hadoop

Compute &

Storage

Compute &

Storage

. . .

. . . .

. . .

Hadoop Cluster

Los Cluster Hadoop proporcionan almacenamiento escalado y procesamiento distribuido de datos en el hardware disponible Apache Hadoop es un proyecto open source, liderado por

la Apache Software Foundation (ASF), que nos permite comprender de cantidades masivas de datos estructurados y no estructurados, rápidamente y sin una inversión importante.

Page 12: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

APACHE HADOOP EN LA MDA HIBRIDA

Page 13: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

Requerimientos para la adopción de Hadoop

Requerimientos para el Rol de Hadoop en la Arquitectura Moderna de Datos (MDA)

IntegradoInteropera con inversiones de centro de datos existentes

DestrezasAprovecha las habilidades existentes en nuestro ecosistema: Desarrollo, Operaciones y Análisis

Servicio clavesInteropera con

inversiones de centro de datos existentes

Page 14: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

Casos de uso de la Arquitectura de Datos ModernaIndustria Casos de Uso Tipo de Datos

Servicios Financieros

Nuevas cuentas de riesgo Textos, Registros de Servidores

Riesgos comerciales Registros de Servidores

Suscripción de seguros Datos Geográficos, Datos RFid, Textos

Telecomunicaciones

Detalle de llamadas (CDRs) Datos de Maquinas, Datos Geográficos

Inversión en infraestructura Datos de Maquinas, Registros de Servidores

Asignación de ancho de banda en tiempo real Registros de Servidores, Textos, Redes Sociales

VentasVista 360° del cliente Clickstream, Textos

Promociones personalizadas, Localizadas Datos Geográficos

Optimización de sitios web Clickstream

ManufacturasCadena de suministro y logística Datos RFid

Aseguramiento de la calidad de línea de montaje Datos RFid

Aseguramiento de la calidad de CrowdSourcing Redes Sociales

Salud Utilizar datos genómicos en ensayos médicos Datos Estructurados

Monitor de signos vitales de pacientes en tiempo real Datos RFid

FarmacéuticasReclutar y retener a los pacientes para los ensayos de medicamentos Redes Sociales, Clickstream

Mejorar el cumplimiento de la prescripciónRedes Sociales, Datos No Estructurados, Datos Geográficos

Petroleras Unificar la exploración & datos de producciónDatos RFid, Datos Geográficos & Datos No Estructurados

Seguridad en tiempo real del monitoreo en la plataforma de producción Datos RFid, Datos No Estructurados

GobiernoETL para la descarga de datos fuera de linea en respuesta a las presiones presupuestarias federales Datos Estructurados

Análisis semántico para programas del gobierno Redes Sociales

Page 15: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

LA MDA HIBRIDA Y MICROSOFT

Page 16: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

Microsoft en la Arquitectura Moderna de DatosA

PLI

CA

CIO

NES

SIS

TEM

A D

E

BA

SES

DE D

ATO

S

OR

IGEN

ES

D

ED

ATO

S Orígenes Existentes(CRM, ERP, Clickstream,

Logs)

Orígenes Emergentes(Sensores, Semánticos, Geo, No Estructurados)

HERRAMIENTAS DE DATOS Y DESARROLLO

HERRAMIENTAS OPERACIONALES

INFRAESTRUCTURA

Page 17: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

Microsoft y Hortonworks

Ingeniería alineadaCorporaciones alineadas

Campos de acción alineados

Page 18: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

Plataforma de datos End-To-EndInteligencia de Negocio

Almacén de Datos Moderno

Almacén de Datos Relacional

Hadoop

Arquitectura de Datos Moderna

SQL Server

PDWSQL

Server para DW en Azure

Hortonworks Data Platform

PDW vNext

(PDW + HDInsigh

t)

SQL Server

para DW en Azure

Software en Caja

Aplicaciones

NubeSoftware en Caja

Aplicaciones

Nube

Orígenes de Datos Relacionales

Datos No Relacionales

OLTP ERM CRM LOB DISPOSITIVOS

WEB SENSORES

SOCIAL

HERRAMIENTAS DE DATOS Y DESARROLLO

HERRAMIENTAS OPERACIONALES

Page 19: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

Soluciones Hadoop desde MicrosoftSoluciones disponibles para la Nube y On-Premise

Apache Hadoop

Hortonworks Data Platform

PDW vNext (PDW + HDInsight)

Windows Azure | HDInsight

Software en Caja Aplicaciones Nube

Page 20: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

Plataforma de Datos Hortonworks para Windows

Hortonworks Data Platform

Software en Caja

Clientes ideales On-Premises en sus propios servidores Escenarios con altos datos sensibles, o Clientes con altos volúmenes de datos

generados On-Premises

Casos de usos El caso de uso CDW

Información clave HDP 2.1 (Release – Junio 04) para Windows Descargable: http://hortonworks.com/hdp/

Page 21: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

Parallel Data Warehouse con HDInsight

Clientes ideales Clientes que desean soluciones preconstruidas, de

alta gama y escalabilidad horizontal Plataforma Microsoft Integrada (Directorio Activo,

System Center, etc) Clientes que desean ventajas de hardware (Mayor

tolerancia a fallos, Rendimiento de red InfiniBand sintonizado)

Casos de usos Casos de uso RSB – Royal Bank of Scotland

Información clave PDW con nuevas características en segundo

semestre de 2014

PDW vNext (PDW + HDInsight)

Aplicaciones

Page 22: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

Integración Relacional + No Relacional

Modelo de consulta simple para entidades relacionales y Hadoop

Procesos relacionales & Hadoop en paralelo

Costo de ETL no elevado para ingresar a Hadoop en DW

Consultar Hadoop con habilidades de T-SQL existentes

Valor incrementado para los nuevos datos

Consultas integradas con PolyBase en SQL PDW

Select. . .

Conjunto

deResultad

os

DatosHadoop

PolyBase

DataRelacion

al Consulta Relacional + No Relacional

Page 23: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

Ampliar datos relacionales hasta Petabytes

Consultas paralela con Massively Parallel Processing (MPP)

Múltiples nodos con CPU dedicada, Memoria, Unidades de almacenamiento

Añadir incrementalmente hardware para cerca de escala lineal a multi-PB

Manejar complejas consultas y alta escalabilidad en la concurrencia

Sin atajos previo en el almacén de datos para aumentar la capacidad

Tecnologías Escalables en SQL Server Parallel Data Warehouse

Desde Terabytes a Multi-Pentabytes

Ampliarel Entorno de Datos

Page 24: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

Debido a que el PDW se encuentra profundamente integrado con Hadoop, Direct Edge puede utilizar datos no estructurados de Big Data, desbloqueando nuevos escenarios analíticos.

"Nuestros analistas tienen una comprensión mucho más profunda de los datos comerciales. Por ejemplo, pueden comprender mejor las fluctuaciones mensuales en los ingresos por comisiones de honorarios".

Richard HorchronCTO Direct Edge

Page 25: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

Windows Azure HDInsight

Windows Azure | HDInsight

Nube

Clientes ideales Ellos quieren todos los beneficios de la nube – Bajo

costo y Escalabilidad amplia Escenarios con datos existentes en la nube Tiempos de respuestas valorados por Hadoop

(Sobre los 10 minutos)

Casos de usos Casos de uso Hy-Vee

Información clave HDInsight en Hadoop 2.2 Azure HDInsight en Hadoop 2.4

Page 26: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

Master Chief encontrándose con Big Data

• En el juego de análisis, se detectan a los tramposos y mejora la experiencia para todo el mundo

• Permite campañas específicas con el fin de mejorar la retención de clientes

Page 27: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

Salvando vidas con Pequeños y Grandes datos

“Esto reinventará la forma en que trabajamos con registros médicos en el futuro”

Paul Handerson BI Division Head

Page 28: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

Soluciones Hadoop desde Microsoft

Hadoop

Hortonworks Data Platform

PDW vNext (PDW + HDInsight)

Windows Azure | HDInsight

Software en Caja Aplicaciones Nube

Inteligencia de Negocio

Page 29: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

Microsoft & Hortonworks

Orígenesde datos

YARN

HDFS

Java R

PC

MAPREDUCE

SERVICIOS DE DATOS

TEZ

PIG HIVE

HCATALOGHBASE

AMBARI

HERRAMIENTAS DE DATOS Y DESARROLLO

ADMINISTRACIÓN Y MONITOREO

Querys | Visualización | Reportes | Analysis

HADOOPServicios de

Datos

Repositorios Empresarial

es

Gobernabilidad

IntercambioReplicación

Cargade datos

SQOOP

FLUME

Web HDFS

ODBC

JDBC

INTERFACES

SQOOP

JAVA RPC

Arquitectura deReferencia

Page 30: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

DEMO

Page 31: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

Incorporación de grandes datos aUN BILLÓN de usuarios

Page 32: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

PREGUNTAS & RESPUESTAS

Page 33: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

Construyendo la moderna arquitectura de datos híbridos para Big Data con Apache Hadoop y Microsoft Data Platform

Jose Redondo – MS SQL Server MVPCorreo: [email protected]: @redondojBlog: redondoj.wordpress.com

Page 34: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

Construyendo la moderna arquitectura de datos híbridos para Big Data con Apache Hadoop y Microsoft Data Platform

Patrocinadores de esta conferencia

Page 35: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

Los invitamos al

Page 36: Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

Muchas gracias por su participación