azure data usando hdinsight ejemplo hadoop: madreduce, hive, pig

Post on 28-May-2015

488 Views

Category:

Data & Analytics

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Presentación de HDInsight donde la nube y Big Data se encuentran. HDInsight es basado en Hadoop para proveer capacidades de almacenamiento y análisis de grandes volúmenes de datos en la nube (Azure)

TRANSCRIPT

Azure DataIntroducción a HDInsight

Freddy Angarita C.MVP SQL Server@flacMVP | geeks.ms/blogs/fangarita/ @sqlpassmed

ApplicationBuilding Blocks

storagebig data

caching

CDN

database

identity

media

messaging

networking

trafficcloud

services

DemoConfiguración Storage y HDInsight

Hadoop• Framework• Procesamiento distribuido• Modelo de programación simple• Diseñado para escalabilidad• Cada Nodo ofrece computación y

almacenamiento• Diseñada para ser tolerante a fallos

Hadoop -Componentes• Framework de procesamiento• HDFS (Hadoo Distributed File System)

Esquema de Datos Tecnología de Consumo

Relacionales SQL

No relacionales NoSql (Not Only SQL)

Hadoop MapReduce

Consumo de información

MapReduce• Consumo de Datos mediante trabajos

(normalmente Java)• Alta Flexibilidad – Alta complejidad• Ha aumentado su adopción pero como DW

• Opciones• Hive – query en MapReduce

Distribuido en el clúster• Los datos y el procesamiento se hospeda

en cada máquina• Agrega redundancia y tolerancia a fallos• El procesamiento ocurre localmente

Cómo consulta

Master Node

JobTracker

TaskTracker

TaskTracker

TaskTracker

TaskTracker

TaskTracker

HDFS• Replica los datos en otros nodos (128M)• NameNode: Dónde están los datos• DataNodes: Almacenamiento de la

información• Cada máquina: más procesamiento, más

almacenamiento

DemoEjecutar un Job desde PowerShell

DemoObtener Resultados del Job localmente

DemoConectar herramientas BI (Excel)

PowerQuery http://bit.ly/1loMSko

HIVE• Consultas en paralelo usando MapReduce• Lenguaje parecido a SQL – HiveQL• Ideal para procesar grandes volúmenes de datos

inmutables• No se recomienda para almacenamiento transaccional• Optimizado para• Escalabilidad• Extensibilidad• Tolerancia a Fallos

• No se considera mucho la latencia

Ejecución Query HIVEEjemplo:

2012-02-03 20:26:41 SampleClass3 [ERROR] verbose detail for id 1527353937

Ejecución Invoke-Hive

• Alternativa para escribir MapReduce• Pasos• Carga: lee la información a usar• Transformación: Manipulación de los datos• Volcar o almacenar: Salida a pantalla o a almacenamiento

PIG

Acompáñanos mañana en EAFIT en el Bloque 19, Piso 4 desde las 9 a.m.

Evento de Comunidad

top related