building the modern architecture of hybrid data for big data with microsoft data platform and apache...
DESCRIPTION
The age of knowledge: Building the modern architecture of hybrid data for Big Data with Microsoft and Apache Hadoop Considering that knowledge is a value added for businesses today, in this exhibition show in a simple way as Microsoft and Hortonworks unite its efforts, in order to combine their data platforms ("Hortonworks Data Platform" and Microsoft: Windows, Office, SQL Server, Parallel Data Warehouse and Azure), to build with this, the modern architecture of data hybrid for Big Data.TRANSCRIPT
Construyendo la moderna arquitectura de datos híbridos para Big Data con Apache Hadoop y Microsoft Data Platform
José RedondoCorreo: [email protected]: @redondojLinkedIn: http://co.linkedin.com/in/redondojBlog: http://redondoj.wordpress.com
Expositor CTO – DPA Bits America SAS Colombia – U.S.A.
DPA SolidQ
MCP | MCTS – MS SQL Server; MTA – DAF
SQL Saturday Sponsors
Billones de datos INGRESANDO en nuestros ECOSISTEMAS de bases de
datos
Construyendo la moderna arquitectura de datos híbridos para Big Data con Apache Hadoop y Microsoft Data Platform
AGENDA
Introducción Cual es la Arquitectura Moderna de
Datos Híbridos (MDA)? Apache Hadoop en la MDA Híbrida La MDA Híbrida y Microsoft
INTRODUCCIÓN
Arquitectura de Datos ActualA
PLI
CA
CIO
NES Business
Analytics
AplicacionesPersonalizad
as
AplicacionesEmpaquetad
as
SIS
TEM
A D
E
BA
SES
DE D
ATO
S
REPOSITORIOS
RDBMS
EDW MPP
OR
IGEN
ES
D
ED
ATO
S Orígenes Existentes(CRM, ERP,
Clickstream, Logs)
4,2 ZB en 2013
85% de nuevos tipos de datos
15x datos maquina para 2020
40ZB para 2020
Arquitectura Moderna de Datos HabilitadaA
PLI
CA
CIO
NES Business
Analytics
AplicacionesPersonalizad
as
AplicacionesEmpaquetad
as
SIS
TEM
A D
E
BA
SES
DE D
ATO
S
REPOSITORIOS
RDBMS
EDW MPP
OR
IGEN
ES
D
ED
ATO
S Orígenes Existentes(CRM, ERP, Clickstream,
Logs)
Orígenes Emergentes(Sensores, Semánticos, Geo, No Estructurados)
DESPLIEGUE & PRUEBAS
HERRAMIENTAS DE DATOS Y DESARROLLO
ADMINISTRACIÓN & MONITOREO
HERRAMIENTAS OPERACIONES
CUAL ES LA ARQUITECTURA MODERNA DE DATOS HIBRIDOS (MDA)?
El Poder de la Arquitectura Moderna de Datos Hadoop
Compute &
Storage
Compute &
Storage
. . .
. . . .
. . .
Hadoop Cluster
Los Cluster Hadoop proporcionan almacenamiento escalado y procesamiento distribuido de datos en el hardware disponible Apache Hadoop es un proyecto open source, liderado por
la Apache Software Foundation (ASF), que nos permite comprender de cantidades masivas de datos estructurados y no estructurados, rápidamente y sin una inversión importante.
APACHE HADOOP EN LA MDA HIBRIDA
Requerimientos para la adopción de Hadoop
Requerimientos para el Rol de Hadoop en la Arquitectura Moderna de Datos (MDA)
IntegradoInteropera con inversiones de centro de datos existentes
DestrezasAprovecha las habilidades existentes en nuestro ecosistema: Desarrollo, Operaciones y Análisis
Servicio clavesInteropera con
inversiones de centro de datos existentes
Casos de uso de la Arquitectura de Datos ModernaIndustria Casos de Uso Tipo de Datos
Servicios Financieros
Nuevas cuentas de riesgo Textos, Registros de Servidores
Riesgos comerciales Registros de Servidores
Suscripción de seguros Datos Geográficos, Datos RFid, Textos
Telecomunicaciones
Detalle de llamadas (CDRs) Datos de Maquinas, Datos Geográficos
Inversión en infraestructura Datos de Maquinas, Registros de Servidores
Asignación de ancho de banda en tiempo real Registros de Servidores, Textos, Redes Sociales
VentasVista 360° del cliente Clickstream, Textos
Promociones personalizadas, Localizadas Datos Geográficos
Optimización de sitios web Clickstream
ManufacturasCadena de suministro y logística Datos RFid
Aseguramiento de la calidad de línea de montaje Datos RFid
Aseguramiento de la calidad de CrowdSourcing Redes Sociales
Salud Utilizar datos genómicos en ensayos médicos Datos Estructurados
Monitor de signos vitales de pacientes en tiempo real Datos RFid
FarmacéuticasReclutar y retener a los pacientes para los ensayos de medicamentos Redes Sociales, Clickstream
Mejorar el cumplimiento de la prescripciónRedes Sociales, Datos No Estructurados, Datos Geográficos
Petroleras Unificar la exploración & datos de producciónDatos RFid, Datos Geográficos & Datos No Estructurados
Seguridad en tiempo real del monitoreo en la plataforma de producción Datos RFid, Datos No Estructurados
GobiernoETL para la descarga de datos fuera de linea en respuesta a las presiones presupuestarias federales Datos Estructurados
Análisis semántico para programas del gobierno Redes Sociales
LA MDA HIBRIDA Y MICROSOFT
Microsoft en la Arquitectura Moderna de DatosA
PLI
CA
CIO
NES
SIS
TEM
A D
E
BA
SES
DE D
ATO
S
OR
IGEN
ES
D
ED
ATO
S Orígenes Existentes(CRM, ERP, Clickstream,
Logs)
Orígenes Emergentes(Sensores, Semánticos, Geo, No Estructurados)
HERRAMIENTAS DE DATOS Y DESARROLLO
HERRAMIENTAS OPERACIONALES
INFRAESTRUCTURA
Microsoft y Hortonworks
Ingeniería alineadaCorporaciones alineadas
Campos de acción alineados
Plataforma de datos End-To-EndInteligencia de Negocio
Almacén de Datos Moderno
Almacén de Datos Relacional
Hadoop
Arquitectura de Datos Moderna
SQL Server
PDWSQL
Server para DW en Azure
Hortonworks Data Platform
PDW vNext
(PDW + HDInsigh
t)
SQL Server
para DW en Azure
Software en Caja
Aplicaciones
NubeSoftware en Caja
Aplicaciones
Nube
Orígenes de Datos Relacionales
Datos No Relacionales
OLTP ERM CRM LOB DISPOSITIVOS
WEB SENSORES
SOCIAL
HERRAMIENTAS DE DATOS Y DESARROLLO
HERRAMIENTAS OPERACIONALES
Soluciones Hadoop desde MicrosoftSoluciones disponibles para la Nube y On-Premise
Apache Hadoop
Hortonworks Data Platform
PDW vNext (PDW + HDInsight)
Windows Azure | HDInsight
Software en Caja Aplicaciones Nube
Plataforma de Datos Hortonworks para Windows
Hortonworks Data Platform
Software en Caja
Clientes ideales On-Premises en sus propios servidores Escenarios con altos datos sensibles, o Clientes con altos volúmenes de datos
generados On-Premises
Casos de usos El caso de uso CDW
Información clave HDP 2.1 (Release – Junio 04) para Windows Descargable: http://hortonworks.com/hdp/
Parallel Data Warehouse con HDInsight
Clientes ideales Clientes que desean soluciones preconstruidas, de
alta gama y escalabilidad horizontal Plataforma Microsoft Integrada (Directorio Activo,
System Center, etc) Clientes que desean ventajas de hardware (Mayor
tolerancia a fallos, Rendimiento de red InfiniBand sintonizado)
Casos de usos Casos de uso RSB – Royal Bank of Scotland
Información clave PDW con nuevas características en segundo
semestre de 2014
PDW vNext (PDW + HDInsight)
Aplicaciones
Integración Relacional + No Relacional
Modelo de consulta simple para entidades relacionales y Hadoop
Procesos relacionales & Hadoop en paralelo
Costo de ETL no elevado para ingresar a Hadoop en DW
Consultar Hadoop con habilidades de T-SQL existentes
Valor incrementado para los nuevos datos
Consultas integradas con PolyBase en SQL PDW
Select. . .
Conjunto
deResultad
os
DatosHadoop
PolyBase
DataRelacion
al Consulta Relacional + No Relacional
Ampliar datos relacionales hasta Petabytes
Consultas paralela con Massively Parallel Processing (MPP)
Múltiples nodos con CPU dedicada, Memoria, Unidades de almacenamiento
Añadir incrementalmente hardware para cerca de escala lineal a multi-PB
Manejar complejas consultas y alta escalabilidad en la concurrencia
Sin atajos previo en el almacén de datos para aumentar la capacidad
Tecnologías Escalables en SQL Server Parallel Data Warehouse
Desde Terabytes a Multi-Pentabytes
Ampliarel Entorno de Datos
Debido a que el PDW se encuentra profundamente integrado con Hadoop, Direct Edge puede utilizar datos no estructurados de Big Data, desbloqueando nuevos escenarios analíticos.
"Nuestros analistas tienen una comprensión mucho más profunda de los datos comerciales. Por ejemplo, pueden comprender mejor las fluctuaciones mensuales en los ingresos por comisiones de honorarios".
Richard HorchronCTO Direct Edge
Windows Azure HDInsight
Windows Azure | HDInsight
Nube
Clientes ideales Ellos quieren todos los beneficios de la nube – Bajo
costo y Escalabilidad amplia Escenarios con datos existentes en la nube Tiempos de respuestas valorados por Hadoop
(Sobre los 10 minutos)
Casos de usos Casos de uso Hy-Vee
Información clave HDInsight en Hadoop 2.2 Azure HDInsight en Hadoop 2.4
Master Chief encontrándose con Big Data
• En el juego de análisis, se detectan a los tramposos y mejora la experiencia para todo el mundo
• Permite campañas específicas con el fin de mejorar la retención de clientes
Salvando vidas con Pequeños y Grandes datos
“Esto reinventará la forma en que trabajamos con registros médicos en el futuro”
Paul Handerson BI Division Head
Soluciones Hadoop desde Microsoft
Hadoop
Hortonworks Data Platform
PDW vNext (PDW + HDInsight)
Windows Azure | HDInsight
Software en Caja Aplicaciones Nube
Inteligencia de Negocio
Microsoft & Hortonworks
Orígenesde datos
YARN
HDFS
Java R
PC
MAPREDUCE
SERVICIOS DE DATOS
TEZ
PIG HIVE
HCATALOGHBASE
AMBARI
HERRAMIENTAS DE DATOS Y DESARROLLO
ADMINISTRACIÓN Y MONITOREO
Querys | Visualización | Reportes | Analysis
HADOOPServicios de
Datos
Repositorios Empresarial
es
Gobernabilidad
IntercambioReplicación
Cargade datos
SQOOP
FLUME
Web HDFS
ODBC
JDBC
INTERFACES
SQOOP
JAVA RPC
Arquitectura deReferencia
DEMO
Incorporación de grandes datos aUN BILLÓN de usuarios
PREGUNTAS & RESPUESTAS
Construyendo la moderna arquitectura de datos híbridos para Big Data con Apache Hadoop y Microsoft Data Platform
Jose Redondo – MS SQL Server MVPCorreo: [email protected]: @redondojBlog: redondoj.wordpress.com
Construyendo la moderna arquitectura de datos híbridos para Big Data con Apache Hadoop y Microsoft Data Platform
Patrocinadores de esta conferencia
Los invitamos al
Muchas gracias por su participación