big data, hadoop, hdinsight

45
Big Data HDInsight Gustavo Alzate Sandoval Microsoft Azure

Upload: gustavo-alzate-sandoval

Post on 17-Jul-2015

1.515 views

Category:

Technology


2 download

TRANSCRIPT

Page 1: Big data, Hadoop, HDInsight

Big Data HDInsight

Gustavo Alzate Sandoval

Microsoft Azure

Page 3: Big data, Hadoop, HDInsight

Agenda

Conociendo Big Data

Conceptos Básicos

Escenarios

Hadoop

HDInsight

Page 4: Big data, Hadoop, HDInsight

¿Qué es Big Data?

"Big data" es un término aplicado a conjuntos de datos que superan la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable.

Microsoft Azure

Page 5: Big data, Hadoop, HDInsight

¿Qué es Big Data?

Big data es una colección de conjuntos de

datos tan grande y complejo que se vuelve

difícil para trabajar con el uso de

herramientas de gestión de base de datos

tradicionales. Las dificultades incluyen la

captura, almacenamiento, búsqueda,

intercambio, análisis y visualización.

Fuente: Eduardo Castro MVP – SQL Saturday #247 Bogotá

Microsoft Azure

Page 6: Big data, Hadoop, HDInsight

¿Qué es Big Data?

Big Data: “ Barreras para que una

organización o equipo puedan almacenar,

procesar y acceder todos los datos que

necesitan para operar con eficiencia, tomar

decisiones, reducir riesgos, etc.”

Fuente: SolidQ

Microsoft Azure

Page 7: Big data, Hadoop, HDInsight

¿Por que Big Data?

Microsoft Azure

Page 8: Big data, Hadoop, HDInsight

Tendencias Claves

Microsoft Azure

Page 9: Big data, Hadoop, HDInsight

Big Data – La revolución en los datos

Los datos digitales crecerán40x próxima década

En 2015, servicios de nube pública tendrán 46% de crecimiento neto en gasto de ti

Microsoft Azure

Page 10: Big data, Hadoop, HDInsight
Page 11: Big data, Hadoop, HDInsight
Page 12: Big data, Hadoop, HDInsight

¿Qué es Big Data?

Volumen

Velocidad

Variedad

Variabilidad

Microsoft Azure

Page 13: Big data, Hadoop, HDInsight

Internet of Things

Audio / Video

Log Files

Text/Image

Social Sentiment

Data Market Feeds

eGov Feeds

Weather

Wikis / BlogsClick Stream Sensors / RFID / Devices

Spatial & GPS Coordinates

Modern WebMobile

Advertising CollaborationeCommerce

Digital Marketing

Search Marketing

Web Logs

Recommendations

ERP / CRM

Sales Pipeline

Payables

Payroll

Inventory

Contacts

Deal Tracking

Terabytes

(10e12)

Gigabytes

(10e9)

Exabytes

(10e18)

Petabytes

(10e15)

Velocidad | Variedad | Variabilidad

Vo

lum

en

ERP / CRM Modern Web Internet of Things

¿Qué es Big Data?

Microsoft Azure

Page 14: Big data, Hadoop, HDInsight

Ejemplos de Big Data

12 Tbdía

21 PbHadoop

cluster

7 Pbmes

1 Tbtweets/dia

75

Millionscores/day

14 TbHadoop

cluster

4 BillionGraph

edg/day

7 Tbdatos/dia

Microsoft Azure

Page 15: Big data, Hadoop, HDInsight

Flujo de datos de un tradicional E-Commerce

Page 16: Big data, Hadoop, HDInsight

Nuevo flujo de Big Data de un E-Commerce

Page 17: Big data, Hadoop, HDInsight

Conceptos básicos

Microsoft Azure

Page 18: Big data, Hadoop, HDInsight

Características de Big Data

Page 19: Big data, Hadoop, HDInsight

¿Qué es Hadoop?

• Plataforma de almacenamiento de datos y análisis para Big Data

• Open Source

• Optimizado para manejar

• Datos masivos a través de paralelismo

• Variedad de datos (Estructurados, No-estructurados, Menos estructurados)

• Uso de hardware económico

• No para OLTP / OLAP

Page 20: Big data, Hadoop, HDInsight

Sistema de archivos distribuidos(HDFS)

• Sistema de archivos distribuidos y escalables escrito en Java

• Replicación automática

• Optimizado para operaciones de lectura

• Distribuye y copia los ficheros en diferentes nodos para garantizarbackup y disponibilidad de la información

Page 21: Big data, Hadoop, HDInsight

MapReduce

• Sistema de procesamiento distribuido (consume de datos)

• Rastreador de trabajo (Job tracker)

• Rastreador de tareas (Task tracker)

• Resolución práctica de problemas susceptibles a ser paralelizados

• Aborda problemas de set de datos de gran tamaño

Page 22: Big data, Hadoop, HDInsight

RDBMS vs. Hadoop

Page 23: Big data, Hadoop, HDInsight
Page 24: Big data, Hadoop, HDInsight

Distributed Storage

(HDFS)

Query

(Hive)

Distributed Processing

(MapReduce)

OD

BC

Legend■ Core Hadoop

■ Data processing

■ Data Movement

■ Packages

Ecosistema Hadoop

Page 25: Big data, Hadoop, HDInsight

Hive

• Consultas en paralelo usando MapReduce

• Lenguaje HiveQL (Símil Sql)

• Permite procesar grandes volúmenes de datos

• Escalabilidad

• Tolerancia a fallos

Microsoft Azure

Page 26: Big data, Hadoop, HDInsight

Ejemplos HiveQL

•Crear una Tabla Externa

Microsoft Azure

CREATE EXTERNAL TABLE iislogs(sdate string, stime string, ssitename string, csmethod string, csuristem string, csuriquery string, sport int, scstatus int, scbytes int, sbytes int, timetaken int)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '

LOCATION'wasb://[email protected]/'

select sdate, stime, csmethod, scuristem, query_params['api-version'] as api_version,query_params['search_value'] as search_value

from (select *, str_to_map(csuriquery, '&', '=') as query_paramsfrom iislogs

) version_logswhere query_params['api-version'] is not null

•Ejecutar un query para retornar datos

Page 27: Big data, Hadoop, HDInsight

Pig

• Lenguaje script para expresar sentencias MapReduce

• Usa paralelismo para ejecutar las sentencias

• Optimizado para grandes volumenes de datos

• Lenguaje PigLatin (Símil Sql)

Microsoft Azure

Page 28: Big data, Hadoop, HDInsight

Ejemplos PigLatin

•Carga y Transformación de Datos

Microsoft Azure

A = load 'passwd' using PigStorage(':'); -- load the passwd file B = foreach A generate $0 as id; -- extract the user IDs store B into ‘id.out’; -- write the results to a file name id.out

LOGS = LOAD 'wasb:///example/data/sample.log';LEVELS = foreach LOGS generate REGEX_EXTRACT($0, '(TRACE|DEBUG|INFO|WARN|ERROR|FATAL)', 1) asLOGLEVEL;FILTEREDLEVELS = FILTER LEVELS by LOGLEVEL is not null;GROUPEDLEVELS = GROUP FILTEREDLEVELS by LOGLEVEL;FREQUENCIES = foreach GROUPEDLEVELS generate group as LOGLEVEL, COUNT(FILTEREDLEVELS.LOGLEVEL)as COUNT;RESULT = order FREQUENCIES by COUNT desc;DUMP RESULT;

•Ejecutar un query para retornar y procesar datos

Page 29: Big data, Hadoop, HDInsight

¿Qué es HDInsight?

• Project Isotope

• HDInsight es la distribución de Microsoft de Apache Hadoop que se ejecuta en Windows.

• On premise: Instalación en Windows Server

• Cloud: Despliegue en la nube Microsoft Azure

Page 30: Big data, Hadoop, HDInsight

Ventajas

Escale con total flexibilidad a petición

•HDInsight se ha diseñado para poder hacer frente a cualquier cantidad de datos, con la capacidad de escalar de terabytes a petabytes a petición. Solamente se cobra por los recursos de proceso y almacenamiento que realmente usa.

Page 31: Big data, Hadoop, HDInsight

Ventajas

Estudie todos los datos: estructurados,semiestructurados, no estructurados

•Dado que es 100% Apache Hadoop, HDInsightpuede procesar datos no estructurados o semiestructurados desde secuencias de clics web, medios sociales, registros de servidor, dispositivos, sensores, etc.

Page 32: Big data, Hadoop, HDInsight

Ventajas

Desarrolle en su lenguaje favorito

•HDInsight tiene extensiones de programación eficaces para lenguajes como C#, Java, .NET y más. Así, en Hadoop, podrá usar el lenguaje de programación de su elección para crear, configurar, enviar y supervisar trabajos de Hadoop

Page 33: Big data, Hadoop, HDInsight

Ventajas

Sin hardware que comprar o mantener

•Con HDInsight, puede implementar Hadoop en la nube sin comprar nuevo hardware ni incurrir en otros costos iniciales. Además, la instalación y configuración se realizan de forma rápida. Azure se encarga de todo. Puede iniciar su primer clúster en minutos

Page 34: Big data, Hadoop, HDInsight

Ventajas

Use Excel para visualizar sus datos de Hadoop

•Dado que se integra con Excel, HDInsight le permite visualizar y analizar los datos de Hadoop de nuevas y convincentes formas en una herramienta conocida para sus usuarios finales. Desde Excel, los usuarios pueden seleccionar Azure HDInsight como origen de datos

Page 35: Big data, Hadoop, HDInsight

Hadoop Core +

Hive, Pig, HBase

C#, F#, .NET

Azure Storage (WASB)

Office 365 Power BI

(Excel, PowerQuery,

PowerView,

BI Sites)

World's Data (Azure Data

Marketplace)

HDInsight y Hadoop

ODBCSqoop for SQL

ServerPowerShell

Page 36: Big data, Hadoop, HDInsight

Demo

HDInsight en Microsoft Azure

Page 37: Big data, Hadoop, HDInsight

Ofertas detalladas

Page 38: Big data, Hadoop, HDInsight
Page 39: Big data, Hadoop, HDInsight

Recursos

Page 41: Big data, Hadoop, HDInsight
Page 42: Big data, Hadoop, HDInsight

Importante

Big Data analytics

Microsoft Azure

Page 43: Big data, Hadoop, HDInsight

Programando HDInsight

Hive, Pig, Mahout, Cascading, Scalding, Scoobi, Pegasus…

C#, F# Map/Reduce, Microsoft .NET management clients

PowerShell, cross-platform CLI tools

Page 44: Big data, Hadoop, HDInsight

Empleos de Autor Integración de App

Construyendo experiencias de desarrollador

Creación de frameworks and lenguajes

Conectividad

Programabilidad

Seguridad

Combinados libremente

Ligero

Bajo costo de extender

Escenario orientado

Innovación fluye hacia

arriba

Nuevos modelos de

computo

Mejoras de rendimiento

Extender la amplitud &

profundidad

Habilitar nuevos escenarios

Integrar con cadenas actuales

de herramientas

Page 45: Big data, Hadoop, HDInsight

HDInsight y Hadoop

HDFS

Map Reduce

HivePig

Sqoop

Mahout Pegasus Flume

JDBC

Hive ODBC

Microsoft Azure & Windows Server

MicrosoftBI

Platform