big data - desarrollando soluciones efectivas
TRANSCRIPT
Microsoft Data PlatformAvanet
Jose RedondoMicrosoft SQL Server MVP | CEO EntornoDB | DPA SolidQ
[email protected] | @redondoj | redondoj.wordpress.com
Big DataDesarrollando soluciones efectivas
Expositor• CEO de EntornoDB, USA• Arquitecto de Datos – Especialista en Inteligencia de Negocio, Análisis de Datos y Big Data• Desarrollador de aplicaciones de Escritorio, Web y Bases de Datos en .NET y Java• Desarrollador y DBA en plataformas de datos Microsoft, SyBase, IBM y Oracle• Conferencista en eventos tecnológicos de Microsoft en Latinoamérica y Estados Unidos • SQL Server MCP - MSTS – MTA• DPA SolidQ • Contributing Technical Reviewer Packt Publishing• Microsoft SQL Server MVP
Big DataDesarrollando soluciones efectivas
He estado intentando desarrollar una solución de Big Datapero…
Y termino vuelto un lío en mi oficina de casa viendo “Mazinger Z”
Espero que logren que estos no les pase a
ustedes…
Agenda• Revisión sobre como Construir una Arquitectura efectiva de una Bodega
de Datos• Definiciones sobre Big Data y Análisis de Datos• Casos de uso• Lago de Datos• Hadoop y sus roles• IoT y Datos en tiempo real• Una moderna Bodega de Datos• Consultas federadas de datos• Bodegas de Datos y la nube• Diferencias de Multiprocesamiento Simétrico (SMP) vs. Procesamiento
Paralelo Masivo (MPP)
Revisión sobre como Construir una Arquitectura efectiva de una Bodega de Datos1
Que es un Almacén de Datos y Porque usar uno?
Un Almacén de Datos es un lugar donde se depositan todos los datos procedentes de multiples orígenes con el fin de ser utilizado para analizar históricamente y tendencias del escenario a través de reportes de datos. Actúa como un repositorio central para muchos temas y contiene “La Versión Única de la Verdad”. NO ES para ser utilizado por aplicaciones OLTP.
Que es un Almacén de Datos y Porque usar uno?
Razones para un almacén de datos:
• Reducir el estrés en el Sistema de Producción
• Optimizado para acceso de lectura, análisis secuencial disco
• Integrar heterogéneamente varias fuentes de datos
• Mantener registros históricos (No necesita guardar informes impresos)
• Reestructuración y/o Renombramiento de las tablas y columnas, Modelo de datos analítico
Que es un Almacén de Datos y Porque usar uno?
Razones para un almacén de datos:
• Se protege de actualizaciones de los sistemas origen
• Uso Master Data Management, incluyendo las jerarquías
• Ningún personal IT es necesario habilítalo para que los usuarios finales puedan crear informes
• Mejorar la calidad de los datos así como los escenarios de corrupción de datos en los orígenes de datos fuente
• Una sola versión de la verdad
• Fácil crear soluciones de Inteligencia de Negocio en general (Por Ejemplo: Bases de Datos Multidimensionales y Cubos OLAP de SSAS)
Aplicaciones Heredadas + Bases de Datos = Caos Total
Bodega de Datos Empresarial = Sinónimo de Orden y Éxito
Control de Producción
CRM | MPR
Inventarios
Administración de Partes
Logística
Ventas
Materia Prima
Pedidos | Facturación
Control de Envíos
Ingeniería
Finanzas
Inventarios
Administración de Reportes
Logística
Contabilidad
Mercadeo
Recursos Humanos
Ventas
• Continuidad• Consolidación• Control• Estandarización• Colaboración
Bodega de Datos Empresarial
Cada consulta = Una decisión
UNA SOLA VERSIÓN DEL DATO
2 Propósitos de una Bodega de datos: 1.- Reducir el tiempo de creación de reportes empresariales | 2.- Dividir multidimensionalmente escenarios de cualquier índole
Porque utilizar un Almacén de Datos?Previa presentación: Construyendo La Arquitectura de una eficiente Bodega de Datos en el ITProCamp Tampa, Florida 2014 (http://www.slideshare.net/redondoj/building-an-effective-data-warehouse-architecture)
Modelo Hibrido de un Almacén de DatosO
LTP D
ata
Sourc
es
StagingArea 1
StagingArea 2
StagingArea 3
Data WarehouseÁreas Empresariales
Esquema Estrella
Data Mart 1
Data Mart 2
MultiDimension
al
Tabular
Capa d
e V
isualiza
ción
SSIS
SSIS
SSIS
SSIS
SSIS
Procesamiento deCubos
Data Atómica
Pro
cesa
mie
nto
de
Cubos
En la Arquitectura DW cada Data Mart seria un Esquema (Teniendo en cuenta que cada proceso empresarial sería un área a tratar), todo en una sola base de datos. Algunas empresas y compañías tienen una sola base de datos donde se encuentran cada Data Mart como modulo independiente distribuido en Data Files y FileGroups
Staging
Mir
ror
OLT
P
EDW
Data Warehouse(Normalizado)
Corporate InformationFactory (CIF)
Datos Atómicos
SSIS
SSIS
SSIS
Ad
vert
en
cia:
Uti
lizar
las
Vis
tas
del
Sis
tem
a S
QL
Serv
er
(SQ
L S
erv
er
Vie
ws)
com
o
inte
rface
s en
cad
a n
ivel en
el m
od
elo
Arquitectura de un Almacén de Datos
CRM
ERP
EXCEL
Sistemas Operacionale
s
Datos Externos
Tablas Staging
ODS
DQS
MDM
3NFData
Warehouse
Ventas
Finanzas
Mercadeo
Microsoft Data Platform – Plataforma de Datos de Microsoft
SSIS Transaccional
SSIS DimensionalSSIS
EsquemaEstrella
SSAS
PowerPivot for Excel
SSIS
Data MartTabular
OLAP
PowerPivotForSP
Publicar
SharePoint
SQL Server Reporting Services
PerformancePoint Services
Power View
ExcelExcel
Services
1.- Recopilación 2.- Limpieza | Estandarización
3.- Almacén de Datos
4.- Modelo | Presentación
5.- Análisis 6.- Compartir
Definiciones sobre Big Data y Análisis de Datos2
Gartner’s 2015 Hype Cycle
Subiendo:
• Data Lakes
• Hadoop-Based
• Data Discovery
En la cima:
• Big Data
• Predictive Analytics
• Hadoop SQL Interfaces
• IoT
• Logical Data Warehouse
Como Big Data puede ayudarnos?
Debemos ser capaces de extraer datos de varias fuentes en toda la empresa así como fuera de la misma, y luego transformarlo todo en ideas de negocio claves para poder proporcionar una ventaja competitiva en la toma de mejores decisiones de negocios
Como Big Data puede ayudarnos?• Todo inicia desde lo básico: Entre mas
datos tengas en tu empresa, pueden ustedes generar las mejores decisiones de negocios
• El Primer Paso es entender la importancia de un Almacén de Datos
• Tener que entender que es Big Data
• Necesitar asegurarnos de que el Almacén de Datos puede manejar datos de diferentes orígenes y formatos (Validemos lo siguiente: Tenemos algún problema con los datos de diversas procedencias?)
• Necesitar ejemplos de cuán grande pueden ayudarnos los datos de diferentes orígenes, formatos y tamaños
Como Big Data puede ayudarnos?• Tener que entender Hadoop y
sus implicaciones de uso con un Almacén de Datos
• Tener que entender la diferencia entre el Scaling Up (SMP) y Scaling Out (MPP)
• Comprender las limitaciones de un Almacén de Datos moderno y tradicional, y desarrollar un moderno Almacén de Datos
• Conocer la diferencia entre Los Datos Operativos vs. Los Datos de Investigación Estadística
Cuales son las diferencias en las organizaciones prósperas de hoy?
Sus datos
Que es Big Data en realidad?
Datos en todas las Formas & Tamaños se generan más rápido que nunca
Captura & Combina para nuevos análisis & mejores tomas de decisiones más rápidas
El Reto es la combinación de datos transaccionales almacenados en bases de datos relacionales con menos datos estructurados
Big Data = Todos los datos
Obtener la información exacta a las personas adecuadas en el momento adecuado en el formato correcto
StreamingEstructurado No Estructurado
“ ”
Kalakota, R. (2012, October 22). Sizing “Mobile + Social” Big Data Stats. Retrieved from http://practicalanalytics.wordpress.com/
Complejidad de los Datos: Variedad y Velocidad
Peta
byte
s /
Volu
me
Una evolución en la naturaleza y el uso de los datos en la empresa
Información demográfica y efectivas de todos los Componentes
Sistemas Propios
Clientes Preferenciales, Usuarios Satisfechos & Captación de empresas
Canales Sociales
Componentes Reales & Confiables
Componentes de Servicios
Datos están en todas partes
“El Volumen de Información está creciendo en todo el mundo a una velocidad mínima de 59% anualmente teniendo como componentes con esto, el 15% de los datos como los Datos Estructurados y el resto se compone de Nuevos Tipos de Datos contribuir y alimentar a Big Data".
- Donald Feinberg, Gartner IT Symposium, October 2010
Explosión de la Información, Nuevos Conocimientos e Ideas
90%del mundo datos tan solo se han creado en los últimos dos años 1
Cambiar a lo simple, Computación mas económica, On Demand45%del total a invertir en tecnología de aquí al 2020 estarán relacionadas con cloud2
Fuerza laboral cada vez más conocedor de sus datos
5XLas empresas que utilizan análisis son 5x más propensos a tomar decisiones más rápidamente que sus competidores3
Oportunidad de Cambios
1. IDC. 2. Josh Waldo Senior Director, Cloud Partner Strategy, Microsoft. 3. Bain & Company, The Value of Big Data: How Analytics Differentiates Winners, 2013.
Implementaciones Complejas
Bodega de Datos Empresarial
Spreadmarts Siloed data
Hadoop
DashboardsAnálisis Ad Hoc
Machine Learning
OLAP
Cualquier DatoIn-Memory
Internet of Entidades
Innovación
Sistemas Transaccionales
ETL
Generador de Reportes Empresariales
Valo
rInnovación de la tecnología acelera el valor
Descubrir y ConectarResponder a Preguntas Nuevas
DatosPersonales
Agencias de Datos
Datos deComunidades
Datos Mundiales
Valor
El nuevo ROI (Return On Information): Consumiendo Datos
La formula[datos + análisis +
personas ]
@
velocidad
$1.6 trillonesEn Consumo de Datos
Source: IDC Study: Realizing the Data Dividend, 2014.
Áreas Claves de OportunidadesLas Organizaciones pueden realizar el Consumo de Datos en diferentes áreas claves del negocio…
ProductividadIncluir planeación
estratégica, Administración de
Capital Humano, Optimización de
personal IT
OperationsIncludes demand
and supply chain
management, logistics
Consumo de Datos
$674 billon
es
Consumo de Datos
$486 billonesConsumo de
Datos
$158billone
s
$235billone
sConsumo de Datos
Orientadoal Cliente
Incluye adquisición de Clientes,
Preservación, Soporte y Precios
InnovacionesServicios incluidos,
Investigación y Desarrollo e Innovación
Poner los datos para todos los miembros de su
organizaciónInspiran a la InnovaciónAceleran las Tomas de Decisiones en cualquier ÁmbitoAprender desde El Conocimiento y Compartirlo
Personal de departamentosIngresos y Meta por Región
Contabilidad
Administración
Servicio al Cliente
Finanzas
Recursos Humanos
IT
Mercadeo
I & D
Ventas
0 2 4 6 8 10 12 14 16
5.2 5
9 11
(Mile
s)
Unidades vendidas con descuentos y Beneficio antes de impuestos
Acoger Big Data a través de su negocio
Lista de Estatus XT2000Mostrar solo problemas
Indicador
Presupuesto Preliminar
Revisión de Materiales y Empaquetado
Publicidad y Spot de Libros
Análisis de Eventos en Otoño
Encuesta de Usuarios Finales
Hitos de Revisión Técnica
Estatus 2M
1.5M
1M
0.5M
0MDesc
uen
tos
(En
mill
on
es)
50K 60K 70K 80K 90K 100K 110
Producto A
Producto D Producto C
Producto F
Producto G
VentasMejorar el rendimiento de ingresos
RRHHMaximizar la participacióndel empleado
MercadeoConstruir relaciones más profundas con los clientes
FinanzasImpacto de la línea inferior de su empresa
Norte Sur
Región: SurMeta: 13450Destacado: 4900
Ingresos Meta
El Dato Dividido
80%de datos
almacenados
70%de los datos generados por clientes
<0.5%siendo
optimizados
0.5%siendo
analizados
3%preparados
para el análisis
BIG DATAEL GRAN ABISMO
Gran Error
Gartner: "Alrededor del 2017, el 60% de los proyectos de Big Data no van más allá de la navegación y la indagación de los datos“.Paradigm4: 76% de quienes han utilizado Hadoop o Apache Spark se han quejado de limitaciones significativas.
Solución AnalíticaCaptura e Integración de la datadesde multiples orígenes tanto internos como externos
Descubriendo conocimiento desde los datos con enriquecidos paneles interactivos e informes utilizando las herramientas que conoces
Conocimiento puesto en acción para aumentar la eficiencia e incrementar la experiencia de usuario
Definición de Analítica Avanzada
Advanced Analytics o Business Analytics, se refiere al análisis orientado al futuro que pueden utilizarse para ayudar a los cambios de escenarios y mejoras en las prácticas de negocios. Se compone de tres fases que a continuación se exponen:
Definición de Analítica Avanzada
Análisis Descriptivo: Es lo que es generalmente denominado "Business Intelligence", ya que esta fase es donde se captura una gran cantidad de la información digital. Luego estos datos grandes se condensan en repositorios más pequeños, haciendo más útiles la información, creando con ello una comprensión de las correlaciones entre esos repositorios con el fin de averiguar por qué algo está ocurriendo ("Análisis de Diagnóstico"). En definitiva, están proporcionando información sobre lo que ha sucedido, descubriendo tendencias y patrones de comportamiento. Un ejemplo es Netflix usando ventas históricas y datos del cliente para mejorar su motor de recomendación.
Definición de Analítica Avanzada
Análisis Predictivo: Utiliza una variedad de estadísticas, modelado, minería de datos y técnicas para estudiar los datos históricos y actuales, permitiendo así a los analistas hacer predicciones o pronósticos sobre el futuro. En definitiva, es una ayuda modelo y predice lo que podría suceder. Por ejemplo, tomando los datos de las ventas, datos de redes sociales y datos meteorológicos para la previsión de la demanda de productos de una determinada región y para ajustar así la producción de dicho producto. O puede utilizar análisis predictivo para determinar los resultados como si un cliente le "se va o se queda" o "compro o No compro".
Definición de Analítica Avanzada
Análisis Predictivo: Va más allá de predecir los resultados futuros sugiriendo también acciones para beneficiarse de las predicciones y mostrando al responsable de las consecuencias de cada opción de decisión. El Análisis Prescriptivo no sólo anticipa lo que ocurrirá y cuándo va a suceder sino que también del por qué va a suceder. El resultado es una decisión usando simulación y optimización. En definitiva, se busca determinar la mejor solución o curso preferido de acción entre varias opciones. Por ejemplo, las líneas aéreas filtran a través de millones de itinerarios de vuelo para fijar un precio óptimo en un momento dado, basado en la oferta y la demanda. También, el análisis prescriptivo en el área de la salud pueden ser utilizado para guiar acciones a las clínicas y hospitales haciendo las recomendaciones de un tratamiento prescrito basados en modelos que usan la intervención histórica relevante y datos de los resultados.
Definición de Analítica Avanzada• Descriptivo: ¿Qué pasó?"• Diagnóstico: "¿Por qué sucedió
esto?"• Predictivo: "¿Qué pasará?"• Prescriptiva: "¿Cuál es el mejor
resultado y cómo podemos hacer que suceda?
Definición de Analítica Avanzada
Definición de Analítica Avanzada
Definición de Analítica Avanzada
Definición de Analítica Avanzada
Definición de Analítica Avanzada
Pers
pect
ivas
de d
ato
s en u
na C
asc
ara
de
Nuez
¿Qué ha pasado?
¿Cuántos, cuanto, donde?
¿Dónde exactamente está el problema?
¿Qué acciones son necesarias?
¿Por qué está ocurriendo?
¿Qué pasa si continúan estas tendencias?
¿Qué va a pasar?
¿Qué es lo mejor que puede pasar? Optimización
PredictivoModelado
Pronóstico
Análisis Estadístico
Alertas en Tiempo
RealConsultas Drilldown
Reportes Ad hoc
Reportes
Estándar
Efici
enci
a d
e la o
rganiz
aci
ón
Grado de inteligencia
El resultado final de Big Data - La guinda del pastel
Casos de uso3
Iniciando: Vamos primero por comenzar a erradicar todas las ideas en nuestras mentes
Análisis de datos es necesario en todas partes
Recomendación para Ingenieros
Monitoreo inteligente de Medidores de Servicios Comunes
Equipo de Monitoreo
Análisis de la Publicidad
Investigación de las Ciencias de la Vida
Detección de Fraudes
Resultados de
salud
Pronóstico del Tiempo para la Planificación de Negocios
Exploración de Petróleo y Gas
Análisis de Redes Sociales
Análisis de Escenarios Desorganizados
Optimización del Flujo de Trafico
Infraestructura IT & Optimización de Web App
Descubrimiento Legal y Almacenamiento de Documentos
Recopilación de los Servicios de Inteligencia
Seguimiento basados en Ubicación y Servicios Geodésicos
Análisis de Precios
Seguros Personalizados
Políticas personalizadas pueden reducir
los costos y satisfacer mejor las necesidades
del cliente.
Las compañías de seguros pueden ayudar (y algunos ya han comenzado a ayudar) a la medida de sus clientes
con planes de seguro verdaderamente personalizados a sus
necesidades y riesgos.
Seguro Personalizado
Las compañías de seguros puede recopilar datos en tiempo real de sensores en los automóviles y combinarlo con geolocalización y sistemas internos. Con información
de distancia y velocidad, pueden proporcionar seguros personalizados, ofreciendo los mismos, basándose en
cantidad, factores de riesgo y otros, para un plan verdaderamente personalizado que puede a menudo
ahorrar a controladores de conducción.
$1,600/añoPrima de seguro de coche
de promedio nacional de
Estados Unidos
Infraestructura IT y Optimización de las aplicaciones Web
Una solución que incluye HDInsight puede
administrar los datos de alta velocidad sobre el estado del servidor, su
comportamiento y otros indicadores, y así enviar
alertas cuando se producen problemas.
Mejorar características y performance de las aplicaciones Web y
monitoreo de datos de uso y acceso a fuentes de
datos no estructurados en tiempo real.
Reducir los costos con la
infraestructura adecuada y
gestionar las cuestiones
rápidamente.
Los Gerentes de IT y de Aplicaciones necesita ser capaz de entender
ambas métricas de inmediato y a largo plazo para resolver problemas y
mantener los costos manejables.
La gran cantidad de datos de compra, calificación y evaluaciones en clientes actuales y creciente pueden
estar todo recopilado y manejado con una solución basada en Hadoop, para identificar preferencias basadas
en historial de compras y demografía, y ser capaces de ser útil y atractiva para las ventas cruzadas y aumentar
las recomendaciones de dichas ventas.
Recomendaciones de Motores de Búsqueda
Mejorar significativament
e las oportunidades de
up-sell y cross-sell.
Los minoristas pueden utilizar información sobre las compras de los
clientes y así valorar la misma para atender las recomendaciones de los
clientes actuales, basándose en similitudes a través de muchas
dimensiones.
471Artículos vendidos/segundo por Amazon.com el 12/02/2013 (El Lunes Cibernético)
Los minoristas, sea grande, pequeño, online o en el lugar de la tienda pueden mejorar márgenes de ventas con
análisis más detallado de precios. Cuando un cliente está en el rango de una transacción (ya sea en la tienda, en línea o tal vez revisando ofertas), ofrecemos la mismas
personalizadas, cotizaciones de precios en tiempo real u otras ventajas de comprador frecuente para ayudar a
llevar más clientes a la tienda y mejorar las futuras compras en el negocio.
Análisis de Precios
Mejorar significativament
e las ventas y satisfacción del
cliente.
Los minoristas pueden utilizar la información de los cliente referente a
sus compras, preferencias y su información demográfica para servir
en tiempo real precios personalizados, descuentos
instantáneos cuando se encuentren cerca de la tienda.
Hasta un 30%Precios adicionales a los usuarios de Mac
aceptados para viajes de Orbitz
Mejorar los resultados de mercadeo públicos combinando datos demográficos, historial de sitio en el navegador (o
las compras en el sitio de la tienda o cupón de campañas de ofertas pasadas) e historia de la publicidad en análisis de datos significativos que sirve para establecer anuncios
relevantes para así proporcionar herramientas para el análisis y reporting.
Análisis de Publicidad
Mejorar el retorno de
Marketing con una respuesta de
anuncios actualizados y
mejorados.
Los vendedores pueden utilizar información de una página
actualizada, más allá de la compra, la preferencia y la información
demográfica para servir en tiempo real, obligando a que los anuncios
publicitarios sean más propensos a verse.
8%Haga clic en
tarifa con anuncios de
Hotmail.
Para reducir la rotación, debemos saber que cada cliente individualmente se deberia establecer identificadores de señales de alerta con una solución de análisis de datos,
demografica e historia, revisando y monitoreando los datos, pudiendo con esto hacer esfuerzos proactivos para
evitar deserciones de clientes antes de que ocurra.
Análisis de Rotación de Clientes
Reducir la rotación con campañas al
Cliente proactivo.
La Rotación de los Clientes pasa por muchas de razones, incluyendo
calidad, servicio, o cuestiones de característica o nuevas ofertas de los
competidores. Análisis individual pueden ayudar a reducir cada uno.
23%Tasa de suscriptores
inalámbricos de conmutación de
servicios en Europa y EE.UU, 2013
Casos legales pueden requerir la administración de
un gran número de documentos que debe ser
identificados, recogidos, almacenados, procesados y
revisado, para luego enviarse al abogado
opositor.
Descubrimiento Legal y Almacenaje de Documentos
Los Gobiernos y Grandes Organizaciones recogen un
gran número de documentos que deban
compartirse internamente o públicamente. Estos
deben ser organizados, investigable y
periódicamente revisados.
Encontrar documentos con
mayor rapidez; para no perder la
información necesaria.
Gestión de Documentos y Contenido con una solución de Almacén de
Datos y Análisis de Datos para encontrar la información correcta
basado en Búsquedas, Análisis de la Semántica y coincidencia de Patrones
de Consumo.
>50%De las organizaciones no
realizar un seguimiento de los procesos de
retención legal (US, 2012)
Utilizando Big Data para completar esta lamina
1Medios Sociales: La confianza del Cliente
2Sensores de las Bicicletas: Jornada Completa
3Autobuses con GPS: Reaccionar al tráfico
4Wi-Fi: El movimiento de Clientes en las Estaciones
Casos de uso con Big Data• Salud: Se garantiza que sólo las personas que tienen derecho son capaces de acceder a atención primaria (evitando el "Turismo de salud" en atención primaria). Streaming de datos vitales.
• Ventas: Uso de hardware Kinect para ayudar a reconocer los compradores y ofrecerles una experiencia de compra en la medida mediante la localización de un carrito de compras.
• Automotriz: Informe de sensores del vehículo cuando una parte está prevista para el servicio, y el propietario del vehículo y el concesionario son notificados, o por parte del seguro.
• Manufactura: Transmisión de datos a través de sensores.
Casos de Uso para el Análisis Predictivo
http://www.zdnet.com/article/getting-big-data-right-is-about-more-than-the-size-of-your-database/
Lago de Datos4
Qué es un Lago de Datos?Un repositorio de almacenamiento de información que contiene una gran cantidad de datos en su formato nativo hasta que se necesite.
• Un lugar para almacenar cantidades ilimitadas de datos en cualquier formato a bajo costo
• Generalmente utilizando Hadoop• Permite la recopilación de datos que usted puede o
no puede usar más tarde: Un, "Por si acaso" aplica perfectamente
• Una manera de describir cualquier "alberca" grande de datos en la que los requisitos de esquema y datos no están definidos hasta que se consultan los mismos: "Just in time" o "Schema on read"
• También como lo denomina Cloudera, Bitbucket, Landing Zone o Centro de Datos Empresariales
Actual estado de los Data Warehouse
Enfoques Tradicionales
ETL
Fuentes relacionales a menudo bien cuidadas
Formatos y volumen de los datos conocidos y esperados
Poco o ningún cambio
Transformaciones complejas, rígidas
Requiere monitorización extensa
Transformación histórica de datos en las estructuras de lectura
Acceso a datos planos, preservados o multidimensional de datos históricos
Muchos informes, varias versiones de la verdad
Demora de 24 a 48h
ALMACEN DE DATOS - DW
Star schemas,vistas
y otras estructuras-de lecturaoptimizadas
BI Y ANALITICS
Por correo electrónico,Reportes y Panalesde Información almacenado
centralizadamente en Excel
MONITOREO Y TELEMETRIA
CRMERPOLTP LOB
ORIGENES DE DATOS
Actual estado de los Data Warehouse
Enfoques Tradicionales
Aumento de la variedad de fuentes de datos
Aumento de volumen de datos
Aumento de tipos de datos
La presión sobre el motor de la toma dedatos
Transformaciones complejas, siendo rígidas ya no pueden mantener el ritmo
El Monitoreo es abandonado
Retraso en los datos, Incapacidad para transformar los volúmenes, o reaccionar positivamente a nuevas fuentes
Reparación, ajuste y rediseño de ETL
Informes se convierten en inservibles o ya no son válidos
El Retraso aumenta la conservación de los informes existentes
Los usuarios empiezan a "innovar" para aliviar el hambre de sus necesidades de información
ETL ALMACEN DE DATOS - DW
Star schemas,vistas
y otras estructuras-de lecturaoptimizadas
BI Y ANALITICS
Por correo electrónico,Reportes y Panalesde Información almacenado
centralizadamente en Excel
MONITOREO Y TELEMETRIA
CRMERPOLTP LOB
ORIGENES DE DATOS
INCREMENTANDO EL VOLUMÉNDE LOS DATOS
-DATOS NO RELACIONALES
INCREMENTO EN EL TIEMPOREPORTES TRADICIONALES
Enfoques Tradicionales
• Eliminación de datos útiles mediante la introducción de ETL? (Parcialidad)
• Potencialmente se pierden los datos importantes
• Crear latencia en volúmenes de datos incrementados donde cambian fuertemente
• Los datos a través de ambientes ODS para ETL
• El Hardware resulta muy costoso para soportar todos los requerimientos de la escala de procesamiento
El fuerte impacto sino hacemos nada
Transformación del Lago de Datos (Ahora es ELT y no ETL)
Nuevos Enfoques
Se consideran todas las fuentes de datos
Aprovecha el poder de las tecnologías On-Premise y la nube para el almacenamiento y captura
Formatos nativos, Transmisión de datos, Big Data
Extraer y cargar, Transformación mínima o No aplicable
Almacenamiento de datos muy cerca de su formato nativo
La Orquestación se hace posible
El alojamiento del Streaming de datos llega a ser posible
Las refinerías transforman datos sobre lectura
Producir los conjuntos de datos para integrarlo con los almacenes tradicionales
Los usuarios descubren conjuntos de datos publicados y servicios utilizando herramientas conocidas
CRMERPOLTP LOB
ORIGENES DE DATOS
FUTUROSORIGENES DE
DATOS-DATOS NO RELACIONALES
EXTRAER Y CARGARLAGO DE DATOS – DATA LAKE
OTROS PROCESOS DEREFINAMIENTO DE
DATOS
PROCESO DE REFINERIA DE DATOS(TRANSFORMACIÓN EN LECTURA)
Transformandodatos relevantesdentro de losDatasets
BI Y ANALITICS
Descubre yConsumeanálisis predictivo,conjuntos dedatos y otrosinformes
Nuevos Enfoques
• Todo el "universo" de los datos es capturado y mantenido
• La minería de datos a través de la transformación de lectura deja todos los datos en su lugar
• Las Refinerías aprovechar el poder de la nube y las tecnologías tradicionales
• La Integración con metodologías de almacenamiento de datos tradicionales
• La Escalabilidad puede ser empujado a la nube con mas velocidad que lo tradicional
• La Orquestación de los datos es una realidad (Menos rígida, Más flexible, Operacional)
• La Democratización de análisis predictivo, conjuntos de datos, servicios e informes
Cambios en las necesidades básicas del Analista
Hadoop y sus roles5
Qué es Hadoop? Sistema Distribuido, Escalabre en productos
básicos en HW
Compuesto de unas pocas partes:
HDFS - Sistema de Archivos Distribuido
MapReduce - Modelo de Programación
Otras herramientas: Hive, Pig, SQOOP, HCatalog, HBase, Flume, Mahout, YARN, Tez, Spark, Stinger, Oozie, ZooKeeper, Flume, Storm
Principales actores son Hortonworks, Cloudera, MapR
ADVERTENCIA: Hadoop, ideal para el procesamiento de grandes volúmenes de datos, es inadecuada para el análisis de los datos en tiempo real (Empresas hacen análisis de lotes en su lugar)
68
Núcleo de Servicios
SERVICIOS OPERACIONALES
SERVICIO DEDATOS
HDFS
SQOOP
FLUME
NFS
LOAD & EXTRACT
WebHDFS
OOZIE
AMBARI
YARN
MAP REDUCE
HIVE &HCATALOGPIG
HBASEFALCON
Cluster Hadoop
compute&
storage . . .
. . .
. .compute
&storage
.
.
Los Clústeres de Hadoop proporcionan Escalabilidad,
Almacenamiento y Procesamiento de datos
distribuido en el Hardware de todos los Productos Básicos
Hortonworks Data Platform 2.2
En pocas palabras, Hortonworks ata todos los productos de código abierto en una sola plataforma
Hadoop no es!!!• Una tierra de Unicornios y Hadas Madrinas
que resolverán todos sus problemas• Una solución completa para el almacén de
datos de empresa• Una forma rápida para analizar los datos en
tiempo real• Producir resultados valiosos, útiles en muchas
empresas• Pocos productos que son fáciles de usar• Una tecnología que podrá fácilmente
encontrar desarrolladores experimentados para ""
• "Es gratis", lol...• Es imperativamente necesaria en todos los
proyectos para procesamiento de datos No-Relacional / Semi-Estructurados
• Suficiente para el manejo de grandes datos en componentes preestablecidos ya que fue construido para indexar la Web, PLOP...
• Va a reemplazar soluciones OLTP
El costo real de Hadoop
“Big Data – What Does It Really Cost?” Winter Corporation, 2013, http://www.wintercorp.com/tcod-report/
Costo Total de la Solución (5 años)
Hadoop 3.2x más económico RDBMS 3.6x más barato
Los Beneficios de Hadoop• Proporciona almacenamiento para
datos grandes a un costo razonable, ya que vendría siendo el desarrollar alrededor de los componentes básicos de hardware
• Proporciona un entorno robusto, ya que fue diseñado para proporcionar un ambiente tolerante y de alto rendimiento para conjuntos de datos extremadamente grandes
• Permite la captura de nuevos o más datos no estructurados, semi-estructurados y estructurado en lote o en tiempo real
Los Beneficios de Hadoop• Ahorra tiempos y recursos, ya que
no es necesario crear modelos de datos, en lugar de otro esquema de lectura
• Los datos pueden ser almacenados más tiempo, así que ya no tienes que depurar los datos anteriores
• Proporciona análisis escalable mediante almacenamiento distribuido y procesamiento distribuido
• Brinda un análisis enriquecido de todos los datos gracias al soporte para lenguajes como Java, Mahout, Ruby, Python y R
Razones para no usar Hadoop en nuestros DW• Hadoop no prevé una segunda subconsulta
al leerla. Usuario de los dashboard no quieren esperar más de 10 segundos para un trabajo MapReduce para poner en marcha la ejecución de una consulta con Hive
• Hadoop no es relacional, ya que todos los datos están en archivos HDFS, así que siempre hay un proceso de conversión para convertir los datos en un formato relacional
• IMPORTANTE: Hadoop no es un sistema de gestión de base de datos. No tiene funcionalidades como Actualización de Datos, Integridad Referencial, Estadísticas, Cumplimiento de ACID, Seguridad de datos y la gran cantidad de herramientas e instalaciones necesarias para gobernar los activos de todos los datos corporativos
Razones para no usar Hadoop en nuestros DW
• No hay metadatos almacenados en HDFS, así que hay que utilizar otra herramienta para almacenar los datos, añadiendo con esto, complejidad y ralentizando el rendimiento
• Es muy difícil encontrar conocimientos en Hadoop: el pequeño número de personas que entienden de Hadoop y todas sus diferentes versiones y productos frente a la gran cantidad de personas que saben SQL
• Súper complejo, hay que generar mucha integración con múltiples tecnologías para hacer que todo esto funcione
• Muchas Herramientas - Tecnologías - Versiones - Vendors (Fragmentación), Sin Estándar, Muy difícil establecer un estándar corporativo
• Algunas herramientas de reporting mas populares no funcionan contra Hadoop
Casos de usos usando Hadoop y un Almacén de Datos (DW) en combinación Que permite unir las islas de datos mediante Hadoop
Los datos de almacenamiento de datos son almacenados mediante Hadoop (Movidos)? (Hadoop como Cold Storage)
Exportación de datos relacionales para Hadoop (Copia)? (Hadoop como Copia de Seguridad / Recuperación de Desastres, Análisis, Cloud Use)Importación de datos Hadoop dentro de un Data Warehouse (Copia) (Hadoop como área de Almacenamiento, Zona de Refinamiento de Datos)
IoT y Datos en tiempo real6
Qué es la Interconexión Digital de Objetos cotidianos con Internet (IoT)?
Conectividad
Datos AnálisisObjetos
Qué es la Interconexión Digital de Objetos cotidianos con Internet (IoT)?
Dispositivos conectados a Internet que pueden percibir su entorno de ejecución de alguna manera para compartir sus datos y comunicarse con usted. IoT es sólo un término comodín para formas de utilización de los datos generados por la máquina con el fin de crear algo útil.
IoT = Datos adquiridos desde un sensor
• Tiene que un procesador y un sensor para recopilar información
• Ejemplos: centro control de implantes, transpondedores de biochips en animales de granja, automóviles con sensores incluidos, dispositivos de operación de campo que ayudan a los bomberos en el rol de búsqueda y rescate
• Excluye computadoras, tabletas y teléfonos inteligentes
• Pero realmente, es en el ámbito de la inteligencia de negocio (BI) que IoT realmente hará una diferencia.
Qué es la Interconexión Digital de Objetos cotidianos con Internet (IoT)?Posibilidades Probables
• Cuando un cartón de leche está casi vacío se hará ping cuando estás cerca de un supermarket
• Un despertador que señala a su cafetera para iniciar la elaboración del café cuando te despiertas
• Un chip integrado que monitorea signos vitales y notifica al médico si este supera el límite establecido
Gartner: 10 mil millones de dispositivos conectados a la Internet hoy en día, 26 Billones serán en el 2020
Una moderna Bodega de Datos7
El Moderno Almacén de Datos• Pensar en las necesidades
futuras: Aumento de volúmenes de
datos Rendimiento en tiempo real Tipos y nuevas fuentes de
datos Datos nacidos en la nubes Solución multiplataforma Arquitectura híbrida
INFRASTRUCTURA
ADMINISTRACIÓN DE DATOS & PROCESAMIENTO
DATOS ENRIQUECIDOS Y CONSULTAS FEDERADAS
BI & DATOS ANALITICOS
Self-service CollaborationCorporate PredictiveMobile
Extract, transform, loadSingle query model Data quality Master data management
Non-relationalRelational Analytical Streaming Internal & External
Datos de Origen
OLTP ERP CRM LOB
Datos No Relacionales
Devices Web Sensors Social
El Moderno Almacén de Datos Definido
El Moderno Almacén de Datos Definido
El Moderno Almacén de Datos
El Sueño
de
Muchos
Todos los
Orígenes
Almacén de Datos
Empresarial
La
Realid
ad
Consultas federadas de datos8
Consultas FederadasOtros nombres: Virtualización de datos, Almacén de datos lógicos, Federación de datos, Base de datos virtual y Almacén de datos descentralizados.
Un modelo que permite una sola consulta con el fin de recuperar y combinar los datos que se almacenan de múltiples fuentes de datos, conllevando con esto a la no necesidad de utilizar ETL o aprender más de una tecnología de recuperación
Consultas FederadasSelect… Result set
Datos Relacionales
DB2
Oracle
MongoDB
SQL Server
Query Model
Datos No Relacionales
Cloudera CHD Linux
Hortonworks HDP
Windows AzureHDInsight
Bodegas de Datos y la nube9
DW y la nube
• ¿Debe mover los datos a la nube? Esa es la cuestión. La respuesta no es sencilla. Mientras que el movimiento de datos a la nube es la molestia de muchos, el hecho es que una gran mayoría de las empresas según Fortune 500, no mantienen los datos en la nube en todo. Al menos no todavía. ¿Por qué? Bueno, porque algunas de estas razones incluyen:
• Preocupaciones de seguridad (Potencial de información comprometida, Cuestiones de privacidad cuando los datos se almacenan en una instalación pública, podría ser más propensos a amenazas de seguridad externas debido a su alto perfil, algunos proveedores podrían implementar las mismas capas de protección que se puede lograr en la empresa)
• Falta de control operativo: Falta de acceso a servidores (es decir, decir que es hackeado y querer llegar a la seguridad y los archivos del registro del sistema; si algo sale mal no se tiene ninguna manera de controlar cómo y cuándo se realiza una respuesta, el proveedor puede actualizar el software, cambiar configuración y asignar recursos sin su entrada o su aprobación; debe ajustarse al ambiente y normas implementadas por el Proveedor)
• Falta de propiedad (Una agencia externa puede llegar a datos más fácil que en el centro de datos en la nube que no poseen vs. Conocer los datos en su ubicación en el sitio al cual le pertenece. O una preocupación es que comparten un centro de datos en la nube con otras empresas y una persona de otra empresa puede estar al lugar cerca de sus servidores)
• Restricciones de conformidad
• Reglamentos (Salud, Financiera entro muchos mas)
• Restricciones legales (es decir, los datos no pueden abandonar su país)
• Políticas de empresa
DW y la nube• Usted puede compartir recursos en el servidor, así como
la competencia por los recursos del sistema y de la red
• Se pueden conseguir datos robados en vuelo (es decir, desde el centro de datos en la nube para el usuario On-Premise)
• Si usted puede conseguir más allá de la mayoría o todas estas razones, la nube ofrece muchas ventajas:
• Arranca el servidor de forma rápida (Infraestructura abreviada en los tiempos de aplicación de despliegue)
• Al crecer siendo la demanda necesaria (Escala Elástica Ilimitado). Cambio de hardware al instante
• Reducir como lecciones de demanda (salario por lo que necesita)
• No necesita espacio de coubicación, así el ahorro de costes es muy grato (Espacio, Energía, etc.)
• Sin costo de hardware
• Sin compromiso o bloqueo de proveedor a largo plazo
• Permite a las empresas beneficiarse de los cambios en la tecnología que afectan a las últimas soluciones de almacenamiento
DW y la nube
• Alta disponibilidad y Recuperación de desastres generado por nosotros
• Actualizaciones más frecuentes del Sistema Operativo, SQL Server, etc.
• Actualizaciones automáticas
• Redundancia geográfica automática
• Muy útil para proyectos de desarrollo con una duración conocida o de prueba de concepto (POC)
• Además, hay algunas restricciones de datos local:
• Escalar obliga a la contratación local
• Los costos iniciales de CAPEX (Inversiones en bienes de capitales), a través de algunas compañías pueden preferir esto sobre un anual funcionamiento de gastos OPEX (Gastos de Funcionamiento)
• Un grupo de empleados o consultores debe conservarse para administrar y soportar el hardware y el software en su lugar
• Se deben tener en cuenta los conocimientos necesarios para el ajuste e implementación
Puedo utilizar la nube con mi DW?• Nube Pública y Privada
• Datos Cloud-born vs Datos On-Premise born
• Transferir costos desde / hasta la nube y On-Premise
• Datos sensibles On-Premise, Non- Sensitive en la nube
• Mira otras soluciones híbridas
Reporte del 2015 de las Mejores Practicas TDWI
Diferencias de Multiprocesamiento Simétrico (SMP) vs. Procesamiento Paralelo Masivo (MPP)1
0
SMP vs MPP
• Utiliza muchos CPU's separados en paralelo para ejecutar un solo programa
• Nada Compartido: Cada CPU tiene su propia memoria y disco (Scale-Out)
• Los Segmentos se comunican a través de la red de alta velocidad entre Nodos
MPP - Procesamiento
en Paralelo Masivo
• Múltiples CPU's solía completar distintos procesos simultáneamente• Todas las CPU comparten la misma memoria, los discos y los
controladores de red (Scale-Up)• Todas las implementaciones de SQL Server hasta ahora han sido
SMP• Sobre todo, la solución se encuentra en un SAN compartido
SMP - Multiprocesamie
nto Simétrico
Gráfico Spider de Escalabilidad de un Data Warehouse
MPP – Escalabilidad Multidimensional
SMP – Sintonizable en una dimensión en el coste de otras dimensiones
50 TB
100 TB
500 TB
10 TB
5 PB
1.000
100
10.000
3-5 Way Joins
Joins + Operaciones OLAP + Agregaciones + Complejas restricciones
“Where” + Views Paralelismo de ejecución
5-10 WayJoins
Normalizado
Integración Multiple Stars y Normalizado
SimpleStar
Multiple,IntegratedStars
TB’s
MB’s
GB’s
Batch Reporting,Consultas Repetitivas
Consultas Ad HocData Análisis / Minería
Cercano al Tiempo Real Data Feeds
Carga Diaria
CargaSemanal
Estratégico, Táctico
Estratégico
Estratégico,Carga Táctica
Estratégico, Carga Táctica, SLA
“Libertad de Querys“
“Complejidad de Querys““Datos Actuales”
“Volumen de Datos en Consultas“
“Concurrencia de Querys“
“Carga de TrabajoMezclada”
“Sofisticación de Esquemas“
“Volumen de Datos”
El gráfico representa atributos importantes a considerar para con esto, evaluar las opciones de almacenamiento de datos.
El soporte a Big Data es una nueva dimensión.
¿Cuándo es necesario una solución MPP?
• Necesitamos por lo menos 3x de mejora del rendimiento de una consulta
• Estamos cerca de la capacidad actual de los discos, y con ello ver una gran cantidad de crecimiento en los próximos años
• Necesitamos apoyar nuestras consultas durante una ventana de mantenimiento
• Tenemos que cargar los datos fuera de nuestra ventana de mantenimiento
• Vamos a pasar un gran cantidad de dinero para las FusionIO cards, SSDs, SSD, más espacio de SAN, más memoria, una CPU más rápida entro otros
Usted utiliza o va a utilizar "Big Data" o "Hadoop
"
Sin acceso o acceso limitado a datos
detallados; sólo puede surgir informes simples
y no pueden hacer preguntas ad-hoc.
Lento rendimiento de carga de datos no
puede mantenerse al día con la necesidad de
datos de sistemas transaccionales para
reporte intradía.
Procesamiento de cubos MOLAP y actualización de datos tardaron dema
siado.
Rendimiento de consultas lentas con
necesidad de adaptación constante,
especialmente con almacenamiento SAN.
Alto costo de cálculo de costos de
almacenamiento SAN.
Algunos tienen estos dolores de cabezas?
Recomendaciones- Para el Arquitecto: Permítanos
utilizar su escritorio de trabajo para diseñarle la arquitectura de su futuro proyecto y mostrarle como todos los productos de Microsoft trabajan juntos.
- Para la Alta Gerencia: Reunión informativa
- Para el Líder de Proyecto: Discutir soluciones híbridas que utilizan la nube
- Para los Analistas: Inmersión profunda en los casos de uso para su industria
- No hacerlo solo: Traiga en ese consultor
Preguntas & Respuestas
Recursos• La Moderna Bodega de Datos: http://bit.ly/1xuX4Py
• Fast Track Data Warehouse Reference Architecture for SQL Server 2014: http://bit.ly/1xuX9m6
• Moviendo nuestros datos hacia la nube: http://bit.ly/1xuXbKU
• Presentaciones sobre las modernas bodegas de datos (Ingles): http://bit.ly/1xuXcP5
• Presentación sobre como construir una efectiva arquitectura de una bodega de datos: http://bit.ly/1xuXeX4
• Hadoop y Data Warehouses: http://bit.ly/1xuXfu9
• Que es la Microsoft Analytics Platform System (APS)? http://bit.ly/1xuXipO
• Casos de ejemplo sobre Parallel Data Warehouse (PDW): http://bit.ly/1xuXlSy
• Como definimos el Análisis Avanzado? http://bit.ly/1JInGBP
Jose RedondoMicrosoft SQL Server MVP | CEO EntornoDB | DPA [email protected] | @redondoj | redondoj.wordpress.com