big data analytics - hadoop - sergio uassouf

90
BIG DATA BIG DATA ANALYTICS ANALYTICS QUE QUE ES ES, PARA , PARA QUE QUE SIRVE SIRVE Y Y COMO COMO TRABAJA TRABAJA 31 DE OCTUBRE DE 2014 SAS ARGENTINA SAS ARGENTINA IX Jornadas de Data Mining Company Confidential - For Internal Use Only Copyright © 2012, SAS Institute Inc. All rights reserved. QUE QUE ES ES, PARA , PARA QUE QUE SIRVE SIRVE Y Y COMO COMO TRABAJA TRABAJA SAS SAS SOBRE SOBRE HADOOP HADOOP Sergio Uassouf Líder de Práctica de Gestión de Información e Infraestructura v4.5 20141029

Upload: nishme-estefany-zapata-reto

Post on 29-Sep-2015

230 views

Category:

Documents


5 download

DESCRIPTION

BIG DATA

TRANSCRIPT

  • BIG DATA BIG DATA ANALYTICSANALYTICSQUEQUE ESES, PARA , PARA QUEQUE SIRVESIRVE Y Y COMOCOMO TRABAJATRABAJA

    31 DE OCTUBRE DE 2014SAS ARGENTINASAS ARGENTINA

    IX Jornadas de Data Mining

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    QUEQUE ESES, PARA , PARA QUEQUE SIRVESIRVE Y Y COMOCOMO TRABAJATRABAJASASSAS SOBRESOBRE HADOOPHADOOP

    Sergio UassoufLder de Prctica de

    Gestin de Informacin e Infraestructura

    v4.5 20141029

  • CASI TODOS HABLAN SOBRE QUE SE PUEDE HACER...CASI TODOS HABLAN SOBRE QUE SE PUEDE HACER...PERO CASI NADA SOBRE COMO HACERLOPERO CASI NADA SOBRE COMO HACERLO

    BIG DATABIG DATASASSAS SOBRESOBRE HADOOPHADOOP

    PRESENTACIONES DE NEGOCIOSPRESENTACIONES DE NEGOCIOSCON TENDENCIA AL VAPORWARECON TENDENCIA AL VAPORWARE

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    CON TENDENCIA AL VAPORWARECON TENDENCIA AL VAPORWARE

  • NOSOTROS HABLAREMOS SOBRE QUE SE PUEDE HACERNOSOTROS HABLAREMOS SOBRE QUE SE PUEDE HACERPERO TAMBIN SOBRE COMO HACERLO...PERO TAMBIN SOBRE COMO HACERLO...

    BIG DATABIG DATASASSAS SOBRESOBRE HADOOPHADOOP

    BIG DATA EN GENERAL

    HADOOP COMO PLATAFORMA

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    HADOOP COMO PLATAFORMAPARA BIG DATA

    SAS SOBRE HADOOP

  • SASSAS NUESTRANUESTRA EMPRESAEMPRESA

    "With no shareholders demanding short-term returns, we are free to invest in a sustainable future. Thats why we invest in a dedicated workforce, sustainable

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    workforce, sustainable operations and a strong community to make everyone, not just SAS, successful." Jim Goodnight

  • SASSAS NUESTRANUESTRA EMPRESAEMPRESA

    SOLUCIONES ANALITICASLLAVE EN MANO

    HERRAMIENTAS PARA DESARROLLOS

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    DESARROLLOS ANALITICOS

  • SASSAS TODAS LAS CAPACIDADES ANALTICASTODAS LAS CAPACIDADES ANALTICAS PARAPARATODOS LOS VOLMENES DE INFORMACINTODOS LOS VOLMENES DE INFORMACIN

    P

    R

    O

    A

    C

    T

    I

    V

    O

    C

    A

    P

    A

    C

    I

    D

    A

    D

    E

    S

    A

    N

    A

    L

    I

    T

    I

    C

    A

    S

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    R

    E

    A

    C

    T

    I

    V

    O

    C

    A

    P

    A

    C

    I

    D

    A

    D

    E

    S

    BIG DATATAMAO DE DATOS

    MEDIANO A GRANDE

  • AnalticaAnaltica Desarrollos (modelizacin) visuales Desarrollos por interfaz grfica Desarrollos por cdigo

    SASSAS TODAS LAS OPCIONES EN TODOS LOS ASPECTOSTODAS LAS OPCIONES EN TODOS LOS ASPECTOSDE LA ANALTICA DE NEGOCIOSDE LA ANALTICA DE NEGOCIOS

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    PlataformasPlataformas Informacin estructurada Informacin no estructurada Todos las bases de datos Big data (Ya veremos) Flujos contnuos (Streaming)

    Grilla de servidores (Grid) Big data (Ya veremos) La nube

  • BIG DATABIG DATA MODA O REALIDAD PERDURABLE?MODA O REALIDAD PERDURABLE?

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

  • FALSO DILEMAFALSO DILEMANEGOCIOS O TI?NEGOCIOS O TI?

    Un negocio que no tenga soporte tecnolgico?

    O una tecnologa que no sirva

    PERO SE VE MUY FRECUENTEMENTE... CASI SIEMPREPERO SE VE MUY FRECUENTEMENTE... CASI SIEMPRE

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    O una tecnologa que no sirva para generar negocios?

  • PONIENDONOSPONIENDONOSEN EN CONTEXTOCONTEXTO

    HITOSHITOS IMPORTANTESIMPORTANTES DE LA DE LA INFORMATICAINFORMATICA

    La multiprogramacin y el spool de impresoras. Los monitores de transacciones y el procesamiento online. Las bases de datos relacionales. La programacin orientada a objetos. Una computadora en cada escritorio.

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Una computadora en cada escritorio. El protocolo IP = Internet. El protocolo XML = HTML = World Wide Web. Google. Big Data?.

  • BIGBIG DATADATASASSAS ONON HADOOPHADOOP

    MPPMPP

    Si puede almacenar mucha ms informacin a un costo mucho menor...

    Y puede procesarla en un tiempo mucho menor.

    Entonces no necesita armar modelos tomando slo un

    ALMACENARALMACENAR Y Y ANALIZARANALIZAR GRANDESGRANDES VOLUMENESVOLUMENES DE DE INFORMACIONINFORMACION A A BAJOBAJO COSTOCOSTO

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Entonces no necesita armar modelos tomando slo un subconjunto de los datos...

    Y puede hacer todas las iteraciones que necesite.

    Entonces puede almacenar y procesar la informacin que antes no poda

  • NECESIDADNECESIDAD A A RESOLVERRESOLVER

    ALMACENARALMACENAR Y Y ANALIZARANALIZAR GRANDESGRANDES VOLUMENESVOLUMENES DE DE INFORMACIONINFORMACION A A BAJOBAJO COSTOCOSTO

    TODOS LOSCALL DETAIL

    RECORDS

    TODAS LAS TRANSACCIONES

    TODAS LAS SECUENCIAS DE

    SITIOS WEB

    TODAS LAS CONVERSACIONES

    DE LOS CALLCENTERS

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Y ANALIZARLOSEN SU TOTALIDAD...

    EJECUTANDOTODAS LAS

    ITERACIONES QUE NECESITE...

    A MUY BAJOCOSTO RELATIVO

  • PONIENDONOSPONIENDONOSEN EN CONTEXTOCONTEXTO

    INTELIGENCIAINTELIGENCIA O O FUERZAFUERZA BRUTABRUTA??

    Todos los modelos son incorrectos, pero algunos son tiles (George Box, estadstico, 18 de Octubre de 1919 28 de Marzo de 2013).

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Todos los modelos son incorrectos, y cada vez ms podemos tener xito sin ellos (Peter Norvig, director de investigacin de Google, 14 de Diciembre de 1956).

  • Gasto de U.S.A. en ciencia y tecnologa...

    Suicidios por estrangulamiento, ahorcamiento y sofocacin

    Correlacin 0.992082 con...

    CORRELACIONCORRELACION NO NO SIGNIFICASIGNIFICA NECESARIAMENTENECESARIAMENTE CAUSALIDADCAUSALIDADCUIDADOCUIDADO CONCONLASLAS APARIENCIASAPARIENCIAS

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Fuente: Spurious Correlations; http://www.tylervigen.com/

  • Cantidad de gente que se ahoga nadando en una pileta...

    Potencia generada por las plantas nucleares

    Correlacin 0.901179 con...

    CORRELACIONCORRELACION NO NO SIGNIFICASIGNIFICA NECESARIAMENTENECESARIAMENTE CAUSALIDADCAUSALIDADCUIDADOCUIDADO CONCONLASLAS APARIENCIASAPARIENCIAS

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Fuente: Spurious Correlations; http://www.tylervigen.com/

  • Consumo de queso per capita...

    Muertes por enredo en la ropa de cama

    Correlacin 0.947091 con...

    CORRELACIONCORRELACION NO NO SIGNIFICASIGNIFICA NECESARIAMENTENECESARIAMENTE CAUSALIDADCAUSALIDADCUIDADOCUIDADO CONCONLASLAS APARIENCIASAPARIENCIAS

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Fuente: Spurious Correlations; http://www.tylervigen.com/

  • PONIENDONOSPONIENDONOSEN EN CONTEXTOCONTEXTO

    COMPONENTESCOMPONENTES BSICOSBSICOS HACEHACE 40 40 AOSAOS

    Desde los inicios de la informtica un computador, ya sea personal o empresarial est compuesto de 3 componentes principales.

    MEMORIARAMRAM

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    UNIDADES DEALMACENAMIENTO

    UNIDADES DEPROCESAMIENTO

    DiskDiskDiskDiskDiskDisk

    CPUCPU CPUCPU

  • RAMRAMRAMRAM

    RAMRAMRAMRAM

    PONIENDONOSPONIENDONOSEN EN CONTEXTOCONTEXTO

    COMPONENTESCOMPONENTES BSICOSBSICOS EN LA EN LA ACTUALIDADACTUALIDAD

    Pero ahora... en Procesamiento Masivamente Paralelo !!!

    MEMORIARAMRAM RAMRAM

    Desde los inicios de la informtica un computador, ya sea personal o empresarial est compuesto de 3 componentes principales.

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    DiskDiskDiskDiskDiskDisk

    RAMRAM

    CPUCPUCPUCPU

    DiskDiskDiskDiskDiskDisk

    RAMRAM

    CPUCPU CPUCPU

    DiskDiskDiskDiskDiskDisk

    RAMRAM

    CPUCPU CPUCPU

    DiskDiskDiskDiskDiskDisk

    RAMRAM

    CPUCPU CPUCPU

    DiskDiskDiskDiskDiskDisk

    CPUCPU CPUCPU

    DiskDiskDiskDiskDiskDisk

    CPUCPU CPUCPU

    UNIDADES DEALMACENAMIENTO

    UNIDADES DEPROCESAMIENTO

    DiskDiskDiskDiskDiskDisk

    CPUCPU CPUCPU

    DiskDiskDiskDiskDiskDisk

    CPUCPU CPUCPU

  • HADOOPHADOOP CASOSCASOS DE DE USOUSO

    Proyecto Durkheim

    Craig Venter, Celera Genomics eBay

    Aproximadamente 15 terabytes. 200.000.000 grabaciones por da. Importaciones masivas (bulk load): 500.000.000 de filas en 30 minutos.

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Importaciones masivas (bulk load): 500.000.000 de filas en 30 minutos. 1,2 terabytes importados cada da.

    Facebook Almacenamiento de mensajes y sus ndices. 75.000.000.000 de lecturas/grabaciones por da. En momentos pico 1.500.000 de operaciones por segundo. 2 petabytes en HBase.

  • HADOOPHADOOP TAMAOS EN PERSPECTIVATAMAOS EN PERSPECTIVA

    TRANSACCIONES BANCARIASBytes / Transaccin CienBytes en 1 TB Un billnTransacciones en 1 TB Diez mil millones

    A 300 Txs / Segundo 4 aos de transaccionesde das hbiles de 8 horas

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    de das hbiles de 8 horas

    SHORT MESSAGES SERVICESTamao mximo Ciento sesenta caracteresTamao promedio 25SMS promedio en 1 TB Cuarenta mil millones

  • HADOOP ECOSISTEMA HADOOP (COMPONENTES)

    SISTEMA DEARCHIVOS

    HDFS

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    MODELO DEPROGRAMACION

    MAP/REDUCE(Y OTROS)

  • BIG DATABIG DATA RELACIONRELACION ENTRE ENTRE HADOOPHADOOP Y BIG DATAY BIG DATA

    Entonces Big Data...

    Significa Procesamiento Masivamente Paralelo (MPP)... Big Data necesariamente es Hadoop?.

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Big Data es necesariamente HDFS? Big Data es necesariamente MapReduce?

  • DIGRESIONDIGRESION QUEQUE ESES UN FILE SYSTEM?UN FILE SYSTEM?

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    UN FILE SYSTEM NO DETERMINA EL FORMATO DE

    LO QUE ALMACENAMOS EN EL

  • HADOOPHADOOP PREMISASPREMISAS FUNDAMENTALESFUNDAMENTALES DE DE DISEODISEO

    Concepto central: Distribuir los datos inicialmente a medida que van siendo almacenados en el sistema. Cada nodo trabaja con los datos locales de ese nodo. Los datos son replicados mltiples veces en diferentes nodos. Los clculos ocurren donde sea que estn almacenados los datos.

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Los nodos intercambian entre ellos la menor cantidad de informacin posible. Arquitectura shared nothing.

  • HDFSHDFS UN PAR DE UN PAR DE ESQUEMASESQUEMAS GRAFICOGRAFICO Y Y SEGUIMOSSEGUIMOS......

    Los bloques son replicados en los nodos componentes del cluster. Basados en un factor de replicacin (por defecto 3).

    La replicacin no slo mejora la disponibilidad, sino la performance. Mayores oportunidades para conseguir datos locales.

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

  • HDFSHDFS OTROOTRO ESQUEMAESQUEMA GRAFICOGRAFICO

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

  • HDFSHDFS MAS MAS PREMISASPREMISAS DE DE DISEODISEO HADOOPHADOOP Almacenamiento redundante para volmenes masivos de informacin,

    previendo alta cantidad de fallas de los componentes. Utilizando hardware commodity que tienden a fallar frecuentemente.

    Basado en Google File System. Diseado para archivos terabytes o petabytes.

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Enormes flujos de lecturas secuenciales. Favorece un throughput muy elevado y sostenido sobre la baja latencia. No hay acceso random competitivo contra los mtodos tradicionales

    (transaccionales). Muchos proyectos en investigacin.

  • HADOOP/MAP-REDUCE Y ECOSISTEMA

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    HADOOP/MAP-REDUCE Y ECOSISTEMA

  • MAP_REDUCEMAP_REDUCE PROCESOPROCESO DE DE CONTEOCONTEO DE DE PALABRASPALABRAS

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

  • MAP_REDUCEMAP_REDUCE PROCESOPROCESO DE JOIN DE JOIN SQLSQL

    Apareando la variable 3 del Input A con la variable 1 del Input B... Informar la variable 2 del Input A y la variable 4 del input B.

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

  • MAP_REDUCEMAP_REDUCESOLO PARA SOLO PARA ASUSTARASUSTAR... ... ((DESPUESDESPUES PASARPASAR))PROGRAMAPROGRAMA MAP REDUCE DE MAP REDUCE DE SENTENCIASENTENCIA JOIN JOIN SQLSQL

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

  • MAP_REDUCEMAP_REDUCE PROCESOPROCESO DE DE SUMASUMA DE VARIABLESDE VARIABLES

    Informar la suma de las variables del Input A y B cuyas claves apareen.

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

  • MAP_REDUCEMAP_REDUCE ENCADENAMIENTOENCADENAMIENTO DE DE PROGRAMASPROGRAMAS MAP_REDUCEMAP_REDUCE Hay que disear el programa pensando en el paralelismo (analoga OOP).

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Grfico tomadode Oracle

  • HADOOP ECOSISTEMA HADOOP (COMPONENTES)

    Apache Hive

    Apache Pig

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Apache HBase

    Apache Sqoop Apache Flume

    Apache Mahout

  • HADOOPHADOOP--HIVEHIVE PRINCIPALESPRINCIPALES CARACTERSTICASCARACTERSTICAS Lenguaje similar a SQL para acceder a

    datos en HDFS. Nacido en Facebook.

    Se accede desde Hive Shell, como instruccin de programa o herramientas de terceros (Hue Cloudera).

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    de terceros (Hue Cloudera). Almacena sus metadatos en una base

    local en el cliente (generalmente mySQL).

    Sus tablas son directorios de archivos almacenados en HDFS.

    Mencionar Impala

  • HADOOP-HIVE JAVA MAP_REDUCE VS HIVE

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

  • HADOOPHADOOP--PIGPIG PRINCIPALESPRINCIPALES CARACTERSTICASCARACTERSTICAS Y Y SINTAXISSINTAXIS

    Lenguaje de scripting (PigLatin) para acceder a datos en HDFS Nacido en Yahoo. Se accede desde Hive Shell, como instruccin de programa o herramientas

    de terceros (Hue Cloudera). Almacena sus metadatos en una base local en el cliente (generalmente

    mySQL).

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    mySQL). Sus tablas son directorios de archivos almacenados en HDFS.

    stock = LOAD '/user/fred/stock' AS (id, item);orders= LOAD '/user/fred/orders' AS (id, cost);grpd = GROUP orders BY id;totals = FOREACH grpd GENERATE group, SUM(orders.cost) AS t;result = JOIN stock BY id, totals BY group;DUMP result;

  • HADOOPHADOOP--PIGPIG HIVE VS. PIGHIVE VS. PIG

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Si se siente cmodo con SQL tender a usar Hive, si no Pig. Pig es mejor para datos no estructurados. Hay quienes utilizan Pig para

    darle estructura a datos no estructurados que luego procesan con Hive.

  • HADOOPHADOOP INTEGRACIONINTEGRACION EN LA EN LA INFRAESTRUCTURAINFRAESTRUCTURA ACTUALACTUAL

    FLUME

    Servicio distribuido para mover grandes volmenes de datos en el mismo momento en el que son generados. Ideal para capturar logs desde mltiples sistemas e insertarlos en HDFS.

    SQOOP

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    SQOOP

    Aplicacin para transferir datos entre RDBMS y HDFS en varios formatos, Hive o HBase. Algunos conectores: MS SQL Server, MySQL, Oracle, Teradata, Netezza.

  • PARTE 3HADOOP VERSION 2

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    HADOOP VERSION 2

  • HADOOPHADOOP HADOOPHADOOP 1.0 1.0 REQUERIMIENTOSREQUERIMIENTOS PARA PARA HADOOPHADOOP 2.02.0

    Alta disponibilidad para el NameNode HDFS.

    NameNode federado para mayor escalabilidad.

    Acceso NFS para montar HDFScomo un file system estndar.

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Grfico tomadode Hortonworks

    Encripcin de datos en trnsito.

    Sistema YARN de administracin de recursos.

    Separacin de HDFS respectoal modelo de programacinMapReduce.

  • HADOOPHADOOP HADOOPHADOOP 2.02.0

    nico UsoAplicaciones Batch

    Plataforma multi-propsitoBatch, Interactivo, Online, Streaming

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Grfico tomadode Hortonworks

  • HADOOPHADOOP HADOOPHADOOP 2.0 2.0 MODELOSMODELOS DE DE PROGRAMACIONPROGRAMACION

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Grfico tomadode Hortonworks

  • HADOOPHADOOP COMPARACIONCOMPARACION V1 VS. V2 (YARN)V1 VS. V2 (YARN)RESOURCERESOURCE MANAGEMENTMANAGEMENT MAPMAP--REDUCEREDUCE RESOURCERESOURCE MANAGEMENTMANAGEMENT YARNYARN

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

  • SPARK (ON HADOOP)SPARK (ON HADOOP) QUEQUE ESES SPARK?SPARK?

    Motor de ejecucin distribuido preferentemente en memoria. Map_Reduce necesariamente utiliza discos para pasar los

    resultados intermedios

    RDD (Resilient Distributed Datasets) Estructura de datos en memoria con interfaz API basada en

    transformaciones y acciones.

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    transformaciones y acciones.

    Partitioning-aware para reducir shuffles por la red. APIs nativas en Scala, Java y Python. Ejecuta en modalidad stand-alone o sobre Hadoop.

    Se lleva muy bien con Hadoop. Compatible con las APIs de almacenamiento de Hadoop. Compatible con YARN.

  • SPARK (ON HADOOP)SPARK (ON HADOOP) CONTEOCONTEO DE DE PALABRASPALABRAS 50+ lneas en Map_Reduce

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    3 lneas en Spark

  • SPARK (ON HADOOP)SPARK (ON HADOOP) QUEQUE ESES SPARK?SPARK?

    Map-Reduce no se lleva bien con aplicaciones complejas. Entonces comenzaron a aparecer aplicaciones especializadas

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

  • SPARK (ON HADOOP)SPARK (ON HADOOP) QUEQUE ESES SPARK?SPARK?

    Plataforma integrada para analtica sobre Hadoop

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

  • SPARK (ON HADOOP)SPARK (ON HADOOP) SPARK BUILDING BLOCKSSPARK BUILDING BLOCKS

    Resilient Distributed Datasets, Transformaciones y Acciones

    map, filter, groupBy, sort, union, join, leftOuterJoin, rightOuterJoin, reduce, count, fold, reduceByKey,

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    reduceByKey, groupByKey, cogroup, cross, zip, sample, take, first, partitionBy, mapWith, pipe, save

  • SAS EN HADOOP

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    SAS EN HADOOP

  • NECESIDADNECESIDAD A A RESOLVERRESOLVER

    INTERACCIONINTERACCION CON SAS CON CON SAS CON HADOOPHADOOP

    Si est planificando o comenzando a utilizar Hadoop

    Si utiliza SAS como plataforma analtica y ahora quiere utilizarlasobre Hadoop.

    Si quiere utilizar Hadoop y no quiere agregar otra herramienta

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Si quiere utilizar Hadoop y no quiere agregar otra herramientaanaltica ms.

    Si quiere hacer anlisis de datos en forma simultnea sobreplataformas RDBMS y Hadoop.

    Si no sabe como analizar los enormes volmenes de datos quepuede almacenar Hadoop.

  • HADOOPHADOOP COMO NUEVO ALMACENAMIENTO DE DATOSCOMO NUEVO ALMACENAMIENTO DE DATOSTITULOTITULOSASSAS SOBRESOBRE HADOOPHADOOP

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    http://blogs.sas.com/content/sascom/2014/10/13/adopting-hadoop-as-a-data-platform/

  • HADOOPHADOOP COMO INPUT AL DATA COMO INPUT AL DATA WAREHOUSEWAREHOUSE CORPORATIVOCORPORATIVOTITULOTITULOSASSAS SOBRESOBRE HADOOPHADOOP

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

  • HADOOPHADOOP COMO BASE PARACOMO BASE PARABUSINESSBUSINESS INTELLIGENCEINTELLIGENCE Y ANALTICA DE NEGOCIOSY ANALTICA DE NEGOCIOS

    TITULOTITULOSASSAS SOBRESOBRE HADOOPHADOOP

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

  • SAS SOBRE SAS SOBRE HADOOPHADOOP

    TODAS LAS MODALIDADESTODAS LAS MODALIDADES

    COMO REPOSITORIO DE INFORMACION

    Facilitando la implementacin y ejecucin de todas lasmodalidades.

    En forma progresiva o consolidada.

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    INFORMACION

    + PROCESAMIENTO EN PARALELO MODALIDAD MAP-REDUCE

    + PROCESAMIENTO EN PARALELO MODALIDAD IN-MEMORY

  • SAS SAS PROCESAMIENTOPROCESAMIENTO

    EN EN PARALELOPARALELO

    EJECUCIONEJECUCION DE THREADED KERNEL EN LOS APPLIANCES DE THREADED KERNEL EN LOS APPLIANCES DE BASES DE DE BASES DE DATOSDATOS Y CLUSTERS Y CLUSTERS HADOOPHADOOP

    TK runs in Database (New)TK runs on Client (Old)

    SAS Server

    SAS Procs

    TK

    SAS Server

    SAS Procs

    Database Appliance / Hadoop ClusterDatabase Appliance / Hadoop Cluster

    Database Appliance / Hadoop ClusterThreaded Kernel

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Database Appliance

    Data Data Data

    DatabaseProcess

    Database Appliance / Hadoop Cluster

    Data Data Data

    Database Process

    Threaded Kernel(TK)

    EP HPA LASR

    Database Appliance / Hadoop Cluster

    Data Data Data

    Database Process

    Threaded Kernel(TK)

    EP HPA LASR

    Data Data Data

    Database Process

    Threaded Kernel(TK)

    EP HPA LASR

    Data Data Data

    Database Process

    Threaded Kernel(TK)

    EP HPA LASR

  • SAS SOBRE HADOOP COMOREPOSITORIO DE DATOS ANALITICOS

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    SAS SOBRE HADOOP COMOREPOSITORIO DE DATOS ANALITICOS

  • SAN

    SAN

    SAN

    SAN

    HADOOPHADOOP COMO REPOSITORIO DE DATOS ANALTICOSCOMO REPOSITORIO DE DATOS ANALTICOS

    SAS data sets

    1AA

    SAS GridSAS Grid

    SASSAS ININ--DATABASEDATABASE

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Hadoop ClusterHadoop Cluster

    Distributed SAS Data Sets

    Distributed SAS Data Sets

  • HADOOPHADOOP COMO REPOSITORIO DE DATOS ANALTICOSCOMO REPOSITORIO DE DATOS ANALTICOSOPERACIONESOPERACIONES PRIMARIASPRIMARIAS CON CON SASSAS DATA INTEGRATIONDATA INTEGRATION

    Transferir y transformar tablas SAS desde y haciaclusters Hadoop.

    SAS SOBRE SAS SOBRE HADOOPHADOOP

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Delimitados por caracteres, XML, JSON, entre otros

    Construir y ejecutar programas Map-Reduce. Construir y ejecutar programas Pig. Construir y ejecutar programas Hive.

  • OPERACIONES HADOOP DESDE PROGRAMAS SASPIG Y MAP-REDUCE

    /*Run PIG script*/filename cfg "C:\Sample_Data\hadoop_config.xml";filename pigcode1 "C:\Sample_Data\pig_cd.txt";proc hadoop options=cfg username="hadoop password="hadoop"verbose;

    pig code=pigcode1 ;run;

    El sgte. script PIG Latin script lee el archivo NYSE_dividendos desde HDFS y lo agrupa por simbolo. Luego, calcula el promedio de dividendos de cada grupo y

    SAS SOBRE SAS SOBRE HADOOPHADOOP

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    agrupa por simbolo. Luego, calcula el promedio de dividendos de cada grupo y lo almacena en la carpeta HDFS d_promedio_dividendos.

    CD NYSE ;

    d_dividendos = LOAD 'NYSE_dividendos' as (d_exchange, d_simbolo, d_fecha, d_dividendo_ind);

    d_grouped = GROUP d_dividendos BY d_simbolo;

    d_promedio = FOREACH d_grouped GENERATE group, AVG(d_dividendos.d_dividendo_ind);

    STORE d_promedio INTO 'd_promedio_dividendos';

  • OPERACIONES HADOOP COMO CON CUALQUIER DBHIVE

    LIBNAME cdh_hdp HADOOP PORT=10000 SERVER=sascldserv02 user=hadoop password=hadoop ;/* Create new table*/proc sql;connect to hadoop(PORT=10000 SERVER=sascldserv02 USER=hadoop PASSWORD="hadoop"); exec( create table cars_prc (make string, model string, msrp double) ) by hadoop; quit;

    /* Copy from another table*/

    SAS SOBRE SAS SOBRE HADOOPHADOOP

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    */proc sql;

    insert into cdh_hdp.cars_prc select make, model, msrp from sashelp.cars ;

    quit;/* List contents*/proc sql; select * from cdh_hdp.cars_prc; quit;

  • BENEFICIOSBENEFICIOSSAS SAS SOBRESOBREHADOOPHADOOP

    Sustanciales ahorros de costos de almacenamiento

    Mejora de performance

    Beneficios

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Mejora de performance Sin lmite en el ancho de las tablas

    soportadas (>2000 variables) Optimizacin del costo de

    proteccin de datos mediante la replicacin HDFS

  • SAS SOBRE HADOOPIN-DATABASE

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    IN-DATABASE

  • DBMS

    SAS

    DataData

    DBMS

    SAS

    MODALIDADSAS

    NATIVADataData

    MODALIDAD SAS

    IN-DATABASE

    HADOOP COMO REPOSITORIOHADOOP COMO REPOSITORIOY PARA PROCESAMIENTO Y PARA PROCESAMIENTO MODALIDAD MAPMODALIDAD MAP--REDUCEREDUCESAS INSAS IN--DATABASEDATABASE

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Modo tradicional de operacin SAS Actividades que requieren entorno de ejecucin SAS

    Que no pueden ser ejecutadas mediante SQL Que ejecutan mejor en entornos nativos SAS Soluciones SAS

    SAS In-Database Transformaciones de SAS Data Integration Reportes basados en queries SQL Lenguaje DS2 SAS Scoring Accelerator SAS Data Quality Accelerator

  • SAN

    SAN

    SAN

    SAN

    HADOOP COMO REPOSITORIO Y PARA PROCESAMIENTOHADOOP COMO REPOSITORIO Y PARA PROCESAMIENTOMODALIDAD MAPMODALIDAD MAP--REDUCEREDUCE

    SAS data sets

    1AA

    SAS GridSAS Grid

    SAS INSAS IN--DATABASEDATABASESOBRE HADOOPSOBRE HADOOP

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Hadoop ClusterHadoop Cluster

    Distributed SAS Data Sets

    Distributed SAS Data Sets

    SAS Embedded Process ofrece: SAS Code Accelerator for Hadoop SAS Data Quality Accelerator for Hadoop SAS Scoring Accelerator for Hadoop

    SAS Embedded Process ofrece: SAS Code Accelerator for Hadoop SAS Data Quality Accelerator for Hadoop SAS Scoring Accelerator for Hadoop

    EP

  • Business Users / Analysts

    Exploracin, Visualizaciny Analtica Avanzada

    SAS VisualAnalytics / Statistics

    SAS Data Loader for Hadoop

    Preparacin yCalidad de Datos

    Self-service data manipulation in Hadoop + Loading into distributed

    SAS LASR Servers

    SAS DATA LOADER FOR HADOOPSAS DATA LOADER FOR HADOOPFACILITANDOFACILITANDOHADOOPHADOOP

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    SASSAS LASR LASR ANALYTIC ANALYTIC SERVERSERVEROn-Hadoop data processing (Code Accelerator +

    Data Quality Accelerator)

  • SAS DATA LOADER SAS DATA LOADER FOR HADOOP 2.1FOR HADOOP 2.1

    Autoservicio de datos para los usuarios

    MENUMENU PRINCIPALPRINCIPAL

    Sin necesidadde codificacin

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Sin necesidad de conocimientosespecializados en Hadoop

    de codificacino scripting

  • BENEFICIOSBENEFICIOSSAS INSAS IN--DATABASEDATABASESOBRE HADOOPSOBRE HADOOP

    Grandes mejoras de performance Gran crecimiento del poder de

    cmputo basado en el

    Beneficios

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    cmputo basado en el procesamiento en paralelo de Hadoop

    Significativa reduccin del movimiento de datos

  • SAS SOBRE HADOOPIN-MEMORY

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    IN-MEMORYHIGH-PERFORMANCE ANALYTICS

  • LASR SERVERLASR SERVERMODULOS SASHIGH PERFORMANCE

    IMSTAT for

    Hadoop*

    IMSTAT for

    Hadoop*

    IMSTAT for

    Hadoop*

    SOLUCIONESSOLUCIONESANALTICASANALTICAS

    PROCESAMIENTOPROCESAMIENTOEN EN PARALELOPARALELOEN MEMORIAEN MEMORIA

    DIFERENCIADORES DE LOS PRODUCTOS SAS: PODER DE ANLISIS

    d

    e

    A

    n

    l

    i

    s

    i

    s

    High Perf. Visual Visual Visual

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Hadoop*Hadoop*Hadoop* PODER DE ANLISIS INTERCATIVIDAD / CONCURRENCIA DE MLTIPLES USUARIOS FLEXIBILIDAD / FACILIDAD DE USO

    Interactividad / Concurrencia de Mltiples Usuarios

    P

    o

    d

    e

    r

    d

    e

    Batch Interactivo

    High Perf.

    Data Mining

    High Perf.

    Statistics

    Visual

    Analytics

    Visual

    Analytics

    *SAS In-Memory Statistics for Hadoop

    Visual

    Statistics

    Visual

    Statistics

    Visual

    Statistics

  • SAN

    SAN

    SAN

    SAN

    METODOSMETODOS SASSAS NATIVOSNATIVOSAHORA EJECUTANDO EN MODALIDAD AHORA EJECUTANDO EN MODALIDAD ININ--MEMORYMEMORY

    SAS data sets

    1AA

    SAS GridSAS Grid

    SAS SOBRE SAS SOBRE HADOOPHADOOP

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Hadoop ClusterHadoop Cluster

    Distributed SAS Data Sets

    Distributed SAS Data Sets

    SAS High Performance Analytics ofrece: SAS High-Performance Statistics SAS High-Performance Data Mining SAS High-Performance Text Mining SAS High-Performance Optimization SAS High-Performance Econometrics SAS High-Performance Forecasting

    SAS High Performance Analytics ofrece: SAS High-Performance Statistics SAS High-Performance Data Mining SAS High-Performance Text Mining SAS High-Performance Optimization SAS High-Performance Econometrics SAS High-Performance Forecasting

    HPA

  • METODOSMETODOS SASSAS NATIVOSNATIVOSAHORA EJECUTANDO EN MODALIDAD INAHORA EJECUTANDO EN MODALIDAD IN--MEMORYMEMORY

    SAS data sets

    1AASAS SOBRE SAS SOBRE HADOOPHADOOP

    Sample Explore Modify Model Assess CASO DE USOModelo de

    propnsin a compra en cadena

    de hoteles;Regresin logstica;

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Regresin logstica;20 horas vs 20

    minutos;a igual inversin

  • SAS SOBRE HADOOPIN-MEMORY

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    - VISUAL ANALYTICS- VISUAL STATISTICS- IN-MEMORY STATISTICS FOR HADOOP

    ...TODOS BASADOS EN LASR SERVER

  • LASR SERVERMODULOS SASHIGH PERFORMANCE

    IMSTAT for

    Hadoop*

    SOLUCIONESSOLUCIONESANALTICASANALTICAS

    PROCESAMIENTOPROCESAMIENTOEN EN PARALELOPARALELOEN MEMORIAEN MEMORIA

    DIFERENCIADORES DE LOS PRODUCTOS SAS: PODER DE ANLISIS

    d

    e

    A

    n

    l

    i

    s

    i

    s

    High Perf. Visual

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Hadoop* PODER DE ANLISIS INTERCATIVIDAD / CONCURRENCIA DE MLTIPLES USUARIOS FLEXIBILIDAD / FACILIDAD DE USO

    Interactividad / Concurrencia de Mltiples Usuarios

    P

    o

    d

    e

    r

    d

    e

    Batch Interactivo

    High Perf.

    Data Mining

    High Perf.

    Statistics

    Visual

    Analytics

    *SAS In-Memory Statistics for Hadoop

    Visual

    Statistics

  • LASR ANALYTICS SERVER

    SERVIDOR ANALTICO: SUS INSTRUCCIONES EJECUTAN DIRECTAMENTE FUNCIONES ANALITICAS (ACCIONES)

    SOBRE TABLAS EN MEMORIA: SASIOLA ENGINE; EN MODALIDAD STATELESS

    NOMINA DE ACCIONESADDTABLE, ADDTKHPSTABLE, APPENDTABLE, ASSESS, BOXPLOT, CLASSLEVELS, CLUSTER, COLUMNINFO, CONTOURPLOT, COMPUTEDCOLUMN, CORRELATION, CROSSTAB, DECISIONTREE, DELETEROWS, DIRECTLOAD, DISTINCTCOUNT,

    SAS LASRSAS LASRANALYTICS SERVERANALYTICS SERVER

    SERVIDOR ANALTICO...SERVIDOR ANALTICO...QU ES UN SERVIDOR QU ES UN SERVIDOR ANALTICOANALTICO??

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    COMPUTEDCOLUMN, CORRELATION, CROSSTAB, DECISIONTREE, DELETEROWS, DIRECTLOAD, DISTINCTCOUNT, DISTRIBUTIONINFO, DROP, DROPTABLE, EXPORT, EXTERNAL, FETCHROWS, FITMODEL, FORECASTSERIES, FREQUENCY, GROUPBY, HISTOGRAM, IMPORT, IMPORTCUBE, KERNELDENS, LIFETIME, LISTSORTS, MDSUMMARY, NUMROWS, OPTIMIZE, PARALLELCOORDINATES, PARTITION, PARTITIONINFO, PERCENTILE, PROMOTE, PSPLINE, PURGETEMPTABLES, RANDOMFOREST, REALSCATTER, RECOMMEND, REGCORR, REGRESSION, SAVETABLE, SCHEMA, SCORE, SERVERINFO, SERVERPARM, SERVERVERSION, SETTABLES, SCATTERPLOT, SCATTERPLOTMATRIX, SORTORDER, SUMMARY, TABLEINFO, TERMINATE, TEXTPARSE, TOPK, UPDATE

    INTERFAZ CLIENTE JAVA: VISUAL ANALYTICS, VISUAL STATISTICS INTERFAZ IMSTAT: PROGRAMACION SAS INTERFACES PARTICULARES: VASMP, HPAML INTERFAZ PROGRAMACION C

  • SAN

    SAN

    SAN

    SAN

    HADOOP COMO REPOSITORIO HADOOP COMO REPOSITORIO YYPARA PROCESAMIENTO PARA PROCESAMIENTO MODALIDAD INMODALIDAD IN--MEMORYMEMORY

    SAS data sets

    1AA

    SAS GridSAS Grid

    SAS LASRSAS LASRANALYTICS SERVERANALYTICS SERVER

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Hadoop ClusterHadoop Cluster

    Distributed SAS Data Sets

    Distributed SAS Data Sets

    SAS LASR Server ofrece: SAS Visual Analytics SAS Visual Statistics SAS In-Memory Statistics for Hadoop

    SAS LASR Server ofrece: SAS Visual Analytics SAS Visual Statistics SAS In-Memory Statistics for Hadoop

    LASR

  • SASSAS LASRLASRANALYTIC SERVERANALYTIC SERVER

    INTERFACES PARA LAS DIFERENTES NECESIDADESINTERFACES PARA LAS DIFERENTES NECESIDADESDE LOS DIFERENTES TIPOS DE USUARIOSDE LOS DIFERENTES TIPOS DE USUARIOS

    DATA SCIENTIST /PROGRAMMER

    VisualVisualAnalyticsAnalytics

    VisualVisualStatisticsStatistics

    IMSTAT for IMSTAT for HadoopHadoop**

    GUI GUI PROGRAMMING

    BUSINESS ANALYST

    STATISTICIAN

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Data Data ManipulationManipulation

    Data Data ManipulationManipulation

    Exploration/Exploration/VisualizationVisualizationExploration/Exploration/VisualizationVisualization

    ModelingModelingModelingModeling DeploymentDeploymentDeploymentDeploymentData Data

    ManipulationManipulationData Data

    ManipulationManipulationData Data

    ManipulationManipulationExploration/Exploration/VisualizationVisualizationExploration/Exploration/VisualizationVisualizationExploration/Exploration/VisualizationVisualization

    ModelingModelingModelingModelingModelingModeling DeploymentDeploymentDeploymentDeploymentDeploymentDeployment

    AnalyticsAnalytics StatisticsStatistics HadoopHadoop**

    *SAS In-Memory Statistics for Hadoop

  • SAS VISUAL ANALYTICS

    Central Entry Point Integration Role-based Views

    ANALISIS EXPLORATORIOSANALISIS EXPLORATORIOSESTADSTICA Y MINERA DE DATOS BSICASESTADSTICA Y MINERA DE DATOS BSICAS

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    MOBILE BIDATA BUILDER EXPLORER DESIGNER Aplicaciones para iOS

    y Android para visualizacininteractive de reportes

    Operaciones relacionales desde diversas fuentes

    Creacin de columnascalculadas

    Carga de datos

    Descubrimiento de patrones y anlisis de datos

    Analtica avanzada

    Creacin de reports del tipo tablero de control para visualizarlos en la Web o en dispositivosmviles

    SASSAS LASRLASR ANALYTIC SERVERANALYTIC SERVER

    ADMINISTRATOR Monitor SAS LASR

    Analytic server Carga y descarga de

    datos Administracin de

    seguridad

  • Anlisis de Recorridos Para analizar el flujo de navegacin de los usuarios sobre los sitios Web.

    Bsqueda de Objetivos y Anlisis de Escenarios Anlisis visual de escenarios de forecast, pudiendo modificar el objetivo para que

    VA encuentre los parmetros a modificar para alcanzarlo.

    Anlisis de Sentimientos

    SAS VISUAL ANALYTICS

    ALGUNAS DE LAS MEJORAS DE LA ALGUNAS DE LAS MEJORAS DE LA VERSIONVERSION 7.17.1

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Anlisis de Sentimientos Sentimiento de los usuarios sobre temas especficos o documentos enteros.

    Carga en paralelo Desde Cloudera Impala, SAP HANA, Teradata, Greenplum and Oracle.

    Compresin de datos en el servidor analtico LASR. Reportes Administrativos Pre-Construdos

    Para administrar en forma eficiente el entorno VA/LASR.

  • SAS VISUAL STATISTICS

    ESTADSTICA ESTADSTICA Y MINERA DE DATOS Y MINERA DE DATOS AVANZADAAVANZADA

    Entorno totalmente interactive para el modelado estadstico en forma visual Los modelos estadsticos ejecutan en SAS LASR Server Misma interfaz de usuario que Visual Analytics

    Funcionalidades principales Mltiples usuarios concurrentes sobre copia nica de los datos.

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Mltiples usuarios concurrentes sobre copia nica de los datos. Estadstica clsica: Regresiones multiples, Regresin logstica, Anlisis de varianza, Modelo

    lineal generalizado, Clustering. Estadstica moderna / Machine learning (rboles de decisin, Random forest, Clasificadores

    de Bayes ingenuos). Procesamiento GROUP BY en paralelo. Descubrimiento visual de puntos crticos como outliers y puntos de influencia.

  • ACCESO PROGRAMTICOACCESO PROGRAMTICOA TODA LA FUNCIONALIDAD DEL LASR SERVERA TODA LA FUNCIONALIDAD DEL LASR SERVER

    SASSAS ININ--MEMORYMEMORYSTATISTICSSTATISTICS

    FOR HADOOPFOR HADOOP

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    LASR Analytic Serveron Hadoop

    SAS Server ~ BASE, ODS, Access to Hadoop ,LASR

    12 bytes (IMSTAT, RECOMMEND Etc..)

    SAS WebOne HTML 5 Modern Coding Environment

    ~ Happy Data Scientists & SAS Analysts

  • Data Manipulation SAS Data Step BALANCE COLUMINFO COMPUTE DELETEROWS DISTINCT DROPTABLE FETCH GROUPBY

    Data Exploration/Visualization BOXPLOT CORR CROSSTAB CONTOURPLOT

    Miscellaneous EXTERNAL (C API) FREE SAVE STORE

    Predictive Modeling DECISIONTREE FORECAST GENMODEL GLM RANDOMWOODS ASSESSMENTDescriptive Modeling CLUSTER CLUSTER TF-IDF ASSOCIATIONS SVDRecommender CLUSTER KNN

    SASSAS ININ--MEMORYMEMORYSTATISTICSSTATISTICS

    FOR HADOOPFOR HADOOP

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    GROUPBY PARTITION PROMOTE PURGETEMPTABLES SET TABLE UPDATE

    CONTOURPLOT DISTRIBUTIONINFO FREQUENCY HISTOGRAM KDE REPLAY SUMMARY

    KNN ASSOCIATIONS SVDText Analytics PARSING SVD

    Deployment SCORE

  • VISUAL VISUAL ANALYTICSANALYTICS / VISUAL / VISUAL STATISTICSSTATISTICSININ--MEMORYMEMORY STATISTICSSTATISTICS FORFOR HADOOPHADOOP

    SAS LASRSAS LASRANALYTICS SERVERANALYTICS SERVER

    Incremento masivo de la performance

    Simplificacin de la administracin

    Beneficios Caso Modelo FraudeAlta Complejidad

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    Simplificacin de la administracinde recursos

    Optimizacin del movimiento de datos mediante gran paralelismo

    Adaptado para desarrollar / ejecutar todo tipo de modelos analticos Clustering + Impacto + Tiempo + Secuencia

  • SAS ON HADOOPSAS ON HADOOP NUESTRA VISIN...NUESTRA VISIN...

    SAS seguir siendo la empresa ms fuerte en analtica de negocios sobre Hadoop, siendo sta su plataforma de preferencia.

    Su posicin podra ser amenazada por Apache Spark si SAS no contina las mejoras constantes sobre su plataforma

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    no contina las mejoras constantes sobre su plataforma(SAS MVA, SAS in-database, SAS LASR).

    Cuales sern nuestros pasos en el futuro?.

  • LINEAMIENTOS PARA LA IMPLEMENTACION DEUN LABORATORIO ANALITICO DE SAS SOBRE HADOOP

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved. www.SAS.com

    UN LABORATORIO ANALITICO DE SAS SOBRE HADOOP

  • SASSAS LASRLASRANALYTIC SERVERANALYTIC SERVER

    RELACIONRELACION LASRLASR SERVER CONSERVER CONLA ARQUITECTURA GENERAL DE LA ARQUITECTURA GENERAL DE SASSAS

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

  • SASSAS LASRLASRANALYTIC SERVERANALYTIC SERVER

    DENTRO DE LOS SERVIDORES DEL LASR SERVERDENTRO DE LOS SERVIDORES DEL LASR SERVER

    FEATURE CANTIDAD

    PROCESADORES2 x Intel E5-2665 (Total 16 cores)

    RAM 256 GB

    3 x 1TB 7.2K

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    DISCO3 x 1TB 7.2K SAS HDDs

    CONEXION A RED 4 X GbE

    SOPORTE 3 aos 7 x 24

    PRECIO DE REFERENCIA

    U$S 14K

  • SASSAS LASRLASRANALYTIC SERVERANALYTIC SERVER

    PLAN TENTATIVO DE PLAN TENTATIVO DE IMPLEMENTACIONIMPLEMENTACIONDE LABORATORIO ANALTICO DE LABORATORIO ANALTICO SASSAS SOBRE SOBRE HADOOPHADOOP

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

  • BIG DATABIG DATASASSAS SOBRESOBRE HADOOPHADOOP

    LE PROPONEMOS COMENZAR...LE PROPONEMOS COMENZAR...

    Big Data / Hadoop:Nueva tecnologa para resolver grandes problemas de negocio a bajo costo

    SAS sobre Hadoop:SAS adopta esta tecnologa en forma integral,

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.

    SAS adopta esta tecnologa en forma integral, minimizando su dificultad de implementacin

    SAS le propone comenzar su proyecto de Big Data y crecer en forma incremental con SAS sobre Hadoop

  • GRACIAS POR LA INVITACION

    Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved. www.SAS.com

    GRACIAS POR LA INVITACION