hd insight integracion con sql server power-pivot excel

#SQLSat288

Ing. Eduardo Castro, PhD

Microsoft SQL Server [email protected]://www.youtube.com/eduardocastrom

Comunidad Windows Costa Rica

HDInsight utilizando Hadoop + SQL con análisis en Excel

Canal en YouTube

http://www.youtube.com/eduardocastrom

Más detalles sobre Big Data

http://tinyurl.com/BigDataEduardoCastro

Objetivos de la sesión

Qué es Big data Introducción a HDInsightAutoservicio de Inteligencia de Negocios (BI): Excel 2013 PowerPivot Excel 2013 Power View

Características de BI de Excel 2013Creación de un solución de BI con Big Data BI dentro de Excel

2013

Esquema

Introducción: Big Data y Hadoop HDInsight PowerPivot en Excel 2013 Power View en Excel 2013

Modelaje de “Big Data” con PowerPivot: Beneficios Consideraciones

Demostraciones

Introducción a Big Data y Hadoop

Big data es una colección de conjuntos de datos tan grande y complejo que se vuelve difícil para trabajar con el uso de herramientas de gestión de base de datos tradicionales. Las dificultades incluyen la captura, almacenamiento,

búsqueda, intercambio, análisis y visualización

Qué es Big Data?

Megabytes

Gigabytes

Terabytes

Petabytes

Purchase detailPurchase recordPayment record

ERP

CRM

WEB

BIG DATA

Offer details

Support Contacts

Customer Touches

Segmentation

Web logs

Offer history

A/B testing

Dynamic Pricing

Affiliate Networks

Search Marketing

Behavioral Targeting

Dynamic Funnels

User Generated Content

Mobile Web

SMS/MMSSentiment

External Demographics

HD Video, Audio, Images

Speech to Text

Product/Service Logs

Social Interactions & Feeds

Business Data Feeds

User Click Stream

Sensors / RFID / Devices

Spatial & GPS Coordinates

Incremento de variedad y cantidad de datos

Transacciones + Interacciones +

Observaciones= BIG DATA

Procesamiento de datos y análisis: The Old Way

La naturaleza cambiante del Big Data

Big Data tiene importantes cualidades distintivas que lo diferencian de los datos corporativos "tradicionales".

Los datos no son centralizadas, muy estructurados y de fácil manejo, ahora más que nunca los datos están muy dispersos, poco estructurados (o no tiene estructura en absoluto), y cada vez más con volúmenes más grandes


Volumen - La cantidad de datos que han creado las empresas a través de La web Dispositivos móviles Infraestructura de TI y otras fuentes está creciendo exponencialmente cada año.


Tipo - La variedad de tipos de datos es cada vez mayor, No estructurados de datos basados en texto Datos semi-estructurados como los datos de los medios sociales Los datos basados en la localización Datos de logs, ejemplo servidores Web


Velocidad La velocidad a la que se está creando nuevos datos

La necesidad de análisis en tiempo real para obtener valor de negocio de ella - es cada vez mayor gracias a la digitalización de las transacciones, la informática móvil y el gran número de usuarios de dispositivos de Internet y el móvil.

Principales fuentes de datos

Redes sociales y medios de comunicación 700 millones de usuarios de Facebook, 250 millones de usuarios de

Twitter y 156 millones de blogs públicosDispositivos móviles Más de 5 mil millones de teléfonos móviles en uso en todo el mundo

Transacciones en Internet miles de millones de compras en línea, operaciones de bolsa y otras

transacciones ocurren todos los díasDispositivos de red y sensores

Big Data

Casos en los cuales se utiliza Big Data

Parte de lo que hace Hadoop y otras tecnologías y enfoques Big Data es encontrar respuestas a preguntas que ni siquiera saben que preguntar.

Dar lugar a ideas que conducen a nuevas ideas de productos o ayudar a identificar formas de mejorar la eficiencia operativa.

Casos de uso ya identificadas para Big Data, tanto para los gigantes de internet como Google, Facebook y LinkedIn, y para la empresa más tradicional


Sentiment Analysis Utilizado junto con Hadoop, herramientas avanzadas de análisis de

texto analizan el texto no estructurado de las redes sociales y mensajes de redes sociales

Incluyendo los Tweets y mensajes de Facebook, para determinar la confianza del usuario en relación con determinadas empresas, marcas o productos.

El análisis puede centrarse en el sentimiento a nivel macro hasta el sentimiento usuario individual.


Modelado de riesgo Las empresas financieras, bancos y otros utilizan Hadoop y Next

Generation Data Warehouse para analizar grandes volúmenes de datos transaccionales para determinar el riesgo y la exposición de los activos financieros

Para preparar la posible "qué pasaría si" los escenarios basados en el comportamiento del mercado simulado, y para puntuación de clientes potenciales por el riesgo.


Motor de recomendación

Los minoristas en línea utilizan Hadoop para igualar y recomendar a los usuarios entre sí o con los productos y servicios basados en el análisis del perfil de usuario y los datos de comportamiento.

LinkedIn utiliza este enfoque para potenciar su función de "la gente puede saber", mientras que Amazon utiliza para sugerir productos a la venta a los consumidores en línea.


Detección de FraudeUtilizar técnicas de Big Data para combinar el comportamiento

del cliente, históricos y datos de transacciones para detectar la actividad fraudulenta.

Las compañías de tarjetas de crédito, por ejemplo, utilizan tecnologías de Big Data para identificar el comportamiento transaccional que indica una alta probabilidad de una tarjeta robada.


Análisis de la campaña de marketingLos departamentos de marketing a través de industrias han

utilizado durante mucho tiempo la tecnología para monitorear y determinar la efectividad de las campañas de marketing.

Big Data permite a los equipos de marketing para incorporar mayores volúmenes de datos cada vez más granulares, como los datos de click-stream y registros detallados de llamadas, para aumentar la precisión de los análisis.


Análisis Social GraphJunto con Hadoop los datos de redes sociales se extraen para

determinar qué clientes representan la mayor influencia sobre los demás dentro de las redes sociales.

Esto ayuda a determinar las empresas que son sus clientes "más importantes", que no siempre son los que compran la mayoría de los productos o de los que más gastan, pero los que tienden a influir en el comportamiento de compra de la mayoría de los demás.


Customer Experience AnalyticsEmpresas orientadas al consumidor utilizan Hadoop y

tecnologías relacionadas con Big Data para integrar los datos de antes silos canales de interacción con clientes

Tales como centros de llamadas, chat en línea, Twitter, etc, para obtener una visión completa de la experiencia del cliente.

Nuevos Enfoques para el procesamiento y análisis de datos grandes

Hay varios métodos para procesar y analizar grandes volúmenes de datos, pero la mayoría tienen algunas características comunes

Hadoop NoSQL Bases de datos analíticos masivamente paralelo

Nuevos Enfoques para el procesamiento y análisis de datos grandes

Introducción a Big Data y Hadoop

Big data se enfrenta a complejidades de alto volumen, la velocidad y la variedad de los datos

Apache Hadoop, es un conjunto de proyectos de código abierto que transforman el hardware tradicional en un servicio que puede: Almacenar petabytes de información Permite procedamiento distribuido

Principales atributos: Redundante y confiable (no se pierden datos) Centrado en el análisis por lotes Facilidad de crear aplicaciones y procesamiento distribuido Ejecuta en cualquier hardware

Componentes de Hadoop Hadoop Distributed File System (HDFS): La capa de almacenamiento por defecto en

cualquier clúster Hadoop dado;

Nombre de nodo: El nodo de un clúster Hadoop que proporciona la información del cliente en lugar del grupo de datos en particular se almacenan y si los nodos fallan;

Nodo secundario: Una copia de seguridad con el nombre de nodo, se replica periódicamente y almacena los datos del nombre de nodo debe fallar;

Job Tracker: El nodo de un clúster Hadoop que inicia y coordina trabajos MapReduce, o el tratamiento de los datos.

Los nodos esclavos: Los gruñidos de cualquier Hadoop clúster, los nodos esclavos almacenan datos y tomar la dirección de procesarlo desde el gestor de trabajo.

Hadoop Ecosystem

Distributed Storage(HDFS)

Query(Hive)

Distributed Processing(MapReduce)

Scripting(Pig)

NoSQ

L Database

(HBase)

Metadata(HCatalog)

Data Integration

( OD

BC / SQO

OP/ REST)

Relational(SQ

L Server)

Machine Learning(Mahout)

Graph(Pegasus)

Stats processin

g(RHadoop

)

Event Pipeline(Flum

e)

Active Directory (Security)

Monitoring & Deployment

(System Center)

C#, F#, .NETJavaScript

Pipeline / Workflow

(Oozie)

Azure Storage Vault (ASV)

PDW

Polybase

Business Intelligence (Excel, Pow

er View

, SSAS)

World's Data (Azure Data Marketplace)

Event D

riven Processin

g

LegendRed = Core HadoopBlue = Data processingPurple = Microsoft integration points and value addsYellow = Data MovementGreen = Packages

Via Hadoop Ecosystem pptx, Cindy Gross. Used with permission

Arquitectura de Hardware

Arquitectura de Software

Hadoop Distributed Architecture

MapReduce Layer

HDFS Layer

Task trackerTask tracker

Job tracker

Name node

Data node Data node

MapReduce: Mover Código a los Datos

FIRST, STORE THE DATA

Server

ServerServer

Files

Server

Cómo trabaja?

SECOND, TAKE THE PROCESSING TO THE DATA

// Map Reduce function in JavaScriptvar map = function (key, value, context) {var words = value.split(/[^a-zA-Z]/);for (var i = 0; i < words.length; i++) {if (words[i] !== "")context.write(words[i].toLowerCase(),1);}}};var reduce = function (key, values, context) {var sum = 0;while (values.hasNext()) {sum += parseInt(values.next());}context.write(key, sum);};

ServerServer

ServerServer

RUNTIME

Code

Windows HADOOP

2 Versiones Cloud Azure Service

On Permise Integración con el Hadoop File System with Active Directory Integración con BI

Herramientas de integración Sqoop Integración con SQL Server

Introducción a HDInsight

HDInsight es una implementación de Microsoft 100% compatible con la distribución de Apache Hadoop

Disponible tanto para Windows Server y como un servicio Windows Azure

Permite que las empresas analicen datos no estructurados con herramientas bien conocidas tales como Excel

Windows Azure HDInsight Service

Hadoop

Windows Azure Blob StorageHDFS

Hadoop Filesystem Interface

Hive Pig Map Reduce

Query & Metadata:

SqoopData Movement:

OozieWorkflow:

HCatalog

Gateway (REST APIs)

Carga/Descarga de Datos

AmbariMonitoring:

Job submission (hive query, etc)

Windows Azure HDInsight Service

Compute NodeCompute

NodeCompute NodeCompute

Node

Windows Azure Blob StorageHead

Node

Gateway (REST APIs)

Hadoop Cluster

Job submission (hive query, etc)

Cluster Dashboard UI

Hadoop para Windows

HDP para Windows

Hortonworks Data Platform (HDP) For Windows

100% Open Source Enterprise Hadoop

HORTONWORKS DATA PLATFORM (HDP)For Windows

PLATFORM SERVICES

HADOOP CORE Distributed Storage & Processing

DATASERVICES

Store, Process and Access Data

OPERATIONAL SERVICES

Manage & Operate at

Scale

Manage & Operate at

Scale

Store, Process and Access Data

Distributed Storage & Processing

Enterprise Readiness

Demostracióncreación de un Hadoop Cluster

Ecosistema de Big Data de Microsoft

Plataforma de Big Data Micrsooft

Interoperatibilidad

Integración con las herramientas de Análisis de Microsoft

APPLICATIONS

DATA

SYSTEMS

Aplicaciones Microsoft

HORTONWORKS DATA PLATFORMFor Windows

DATA

SOURCE

SMOBILE

DATAOLTP, POS SYSTEMS

Fuentes tradicionales(RDBMS, OLTP, OLAP)

Nuevas Fuentes(web logs, email, sensor data, social media)

Introducción a PowerPivot

PowerPivot permite que los usuarios creen modelos de datos de autoservicio con Excel

Se logra mediante una versión del lado del cliente de of SQL Server Analysis Services conocido como xVelocity In-Memory Analytics Engine

Puede almacenar de forma eficiente volúmenes de datos más grandes que las hojas típicas de Excel

Introducción a PowerPivot

Una ventana se puede utilizar para cargar, explorar, relacionar y enriquecer datos con cálculos personalizados

Puede importar y relacionar datos de la empresa, datos locales, o distintos almacenes de datos

En el Excel 2013 Professional Plus edition, PowerPivot está instalado pero no habilitado

Introducción a Power View

Power View una experiencia de exploración de datos, visualización y presentación Experiencia centrada en la interacción Interacción con metadatos

Permite que los usuarios creen reportes ad-hocLos reportes pueden estár basado en modelos de datos

tabulares, incluyen modelos de PowerPivot

Introducción a Power View

En Excel 2013, se incluyen nuevas características:

• Maps• Pie charts• Hierarchies• KPIs• Drill down/Drill up• Report styles, themes and text resizing• Backgrounds with images• Hyperlinks• Printing

Modelando “Big Data” con PowerPivot

Big data puede ser integrado con otras fuentes de datosPotencial de Autoservicio de BI: PowerPivot puede cargar Big Data mediante el Table Import Wizard ODBC para HDInsight OLE DB para SQL Server con enlace a HDInsight

PowerPivot puede ser fuente para: Reporte locales en Excel con PivotTables, PivotCharts, CUBE y Power View Otras herramientas de análisis (una vez publicado en SharePoint)

Consideraciones de modelar “Big Data” con PowerPivot

Los resultados de Big Data pueden ser muy grandes para almacenamiento en memoria

Workaround: minizar la cantidad de datos consultados Recuperar un periodo de tiempo más pequeño Reducir las dimensiones o ser más granular

Una vez que está cargado el modelo puede ser manipulado con rapidez

Formas de carga de datos

1.Creación de una solución con HDInsight2.Crear un PowerPivot Workbook con HDInsight3.Creación de repores en Excel

Demostraciones

Cargar datos al blog storage de Windows Azure

Para prototipos y ejemplos: #putPara producción utilizer el blob storage APIs. AzCopy Command LineCopyBlob REST API

Cómo consumir Resultados de HDInsight

Destino Herramienta / Biblioteca Requiere Active HDInsight Cluster

SQL Server,Azure SQL DB

Sqoop (Hadoop ecosystem project) Yes

Excel Codename “Data Explorer” No

Otra Blob Storage Account

Azure Blob Storage REST APIs (Copy Blob, etc)

No

SQL Server Analysis Services

Hive ODBC Driver Yes

BI Apps Existentes Hive ODBC Driver (assumes app supports ODBC connections to data sources)

Yes

DEMOConsumir Result Sets – Excel & “Data Explorer”

Hadoop Connectors

SQL Server versions Azure PDW SQL 2012 SQL 2008 R2

http://www.microsoft.com/download/en/details.aspx?id=27584

SQL Server-Hadoop Connector

Sqoop-based connector Import tables in SQL Server to delimited text files on HDFS tables in SQL Server to SequenceFiles files on HDFS tables in SQL Server to tables in Hive Result of queries executed on SQL Server to delimited text files on

HDFS Result of queries executed on SQL Server to SequenceFiles files on

HDFS Result of queries executed on SQL Server to tables in Hive

Export Delimited text files on HDFS to SQL Server DequenceFiles on HDFS to SQL Server Hive Tables to tables in SQL Server

Recursos Adicionales

Microsoft Big Datahttp://www.microsoft.com/bigdataWindows Azure HDInsighthttps://www.hadooponazure.comHDInsight Services for WindowsIncludes an excellent set of BI specific resources in the section named “Using HDInsight with Other BI Technologies”http://social.technet.microsoft.com/wiki/contents/articles/6204.hadoop-based-services-for-windows-en-us.aspxBlog: Big Data for Everyone: Using Microsoft’s Familiar BI Tools with Hadoophttp://blogs.msdn.com/b/microsoft_business_intelligence1/archive/2012/02/24/big-data-for-everyone-using-microsoft-s-familiar-bi-tools-with-hadoop.aspx

hd insight integracion con sql server power-pivot excel

Technology