big data analytics - hadoop - sergio uassouf
DESCRIPTION
BIG DATATRANSCRIPT
-
BIG DATA BIG DATA ANALYTICSANALYTICSQUEQUE ESES, PARA , PARA QUEQUE SIRVESIRVE Y Y COMOCOMO TRABAJATRABAJA
31 DE OCTUBRE DE 2014SAS ARGENTINASAS ARGENTINA
IX Jornadas de Data Mining
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
QUEQUE ESES, PARA , PARA QUEQUE SIRVESIRVE Y Y COMOCOMO TRABAJATRABAJASASSAS SOBRESOBRE HADOOPHADOOP
Sergio UassoufLder de Prctica de
Gestin de Informacin e Infraestructura
v4.5 20141029
-
CASI TODOS HABLAN SOBRE QUE SE PUEDE HACER...CASI TODOS HABLAN SOBRE QUE SE PUEDE HACER...PERO CASI NADA SOBRE COMO HACERLOPERO CASI NADA SOBRE COMO HACERLO
BIG DATABIG DATASASSAS SOBRESOBRE HADOOPHADOOP
PRESENTACIONES DE NEGOCIOSPRESENTACIONES DE NEGOCIOSCON TENDENCIA AL VAPORWARECON TENDENCIA AL VAPORWARE
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
CON TENDENCIA AL VAPORWARECON TENDENCIA AL VAPORWARE
-
NOSOTROS HABLAREMOS SOBRE QUE SE PUEDE HACERNOSOTROS HABLAREMOS SOBRE QUE SE PUEDE HACERPERO TAMBIN SOBRE COMO HACERLO...PERO TAMBIN SOBRE COMO HACERLO...
BIG DATABIG DATASASSAS SOBRESOBRE HADOOPHADOOP
BIG DATA EN GENERAL
HADOOP COMO PLATAFORMA
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
HADOOP COMO PLATAFORMAPARA BIG DATA
SAS SOBRE HADOOP
-
SASSAS NUESTRANUESTRA EMPRESAEMPRESA
"With no shareholders demanding short-term returns, we are free to invest in a sustainable future. Thats why we invest in a dedicated workforce, sustainable
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
workforce, sustainable operations and a strong community to make everyone, not just SAS, successful." Jim Goodnight
-
SASSAS NUESTRANUESTRA EMPRESAEMPRESA
SOLUCIONES ANALITICASLLAVE EN MANO
HERRAMIENTAS PARA DESARROLLOS
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
DESARROLLOS ANALITICOS
-
SASSAS TODAS LAS CAPACIDADES ANALTICASTODAS LAS CAPACIDADES ANALTICAS PARAPARATODOS LOS VOLMENES DE INFORMACINTODOS LOS VOLMENES DE INFORMACIN
P
R
O
A
C
T
I
V
O
C
A
P
A
C
I
D
A
D
E
S
A
N
A
L
I
T
I
C
A
S
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
R
E
A
C
T
I
V
O
C
A
P
A
C
I
D
A
D
E
S
BIG DATATAMAO DE DATOS
MEDIANO A GRANDE
-
AnalticaAnaltica Desarrollos (modelizacin) visuales Desarrollos por interfaz grfica Desarrollos por cdigo
SASSAS TODAS LAS OPCIONES EN TODOS LOS ASPECTOSTODAS LAS OPCIONES EN TODOS LOS ASPECTOSDE LA ANALTICA DE NEGOCIOSDE LA ANALTICA DE NEGOCIOS
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
PlataformasPlataformas Informacin estructurada Informacin no estructurada Todos las bases de datos Big data (Ya veremos) Flujos contnuos (Streaming)
Grilla de servidores (Grid) Big data (Ya veremos) La nube
-
BIG DATABIG DATA MODA O REALIDAD PERDURABLE?MODA O REALIDAD PERDURABLE?
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
-
FALSO DILEMAFALSO DILEMANEGOCIOS O TI?NEGOCIOS O TI?
Un negocio que no tenga soporte tecnolgico?
O una tecnologa que no sirva
PERO SE VE MUY FRECUENTEMENTE... CASI SIEMPREPERO SE VE MUY FRECUENTEMENTE... CASI SIEMPRE
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
O una tecnologa que no sirva para generar negocios?
-
PONIENDONOSPONIENDONOSEN EN CONTEXTOCONTEXTO
HITOSHITOS IMPORTANTESIMPORTANTES DE LA DE LA INFORMATICAINFORMATICA
La multiprogramacin y el spool de impresoras. Los monitores de transacciones y el procesamiento online. Las bases de datos relacionales. La programacin orientada a objetos. Una computadora en cada escritorio.
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Una computadora en cada escritorio. El protocolo IP = Internet. El protocolo XML = HTML = World Wide Web. Google. Big Data?.
-
BIGBIG DATADATASASSAS ONON HADOOPHADOOP
MPPMPP
Si puede almacenar mucha ms informacin a un costo mucho menor...
Y puede procesarla en un tiempo mucho menor.
Entonces no necesita armar modelos tomando slo un
ALMACENARALMACENAR Y Y ANALIZARANALIZAR GRANDESGRANDES VOLUMENESVOLUMENES DE DE INFORMACIONINFORMACION A A BAJOBAJO COSTOCOSTO
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Entonces no necesita armar modelos tomando slo un subconjunto de los datos...
Y puede hacer todas las iteraciones que necesite.
Entonces puede almacenar y procesar la informacin que antes no poda
-
NECESIDADNECESIDAD A A RESOLVERRESOLVER
ALMACENARALMACENAR Y Y ANALIZARANALIZAR GRANDESGRANDES VOLUMENESVOLUMENES DE DE INFORMACIONINFORMACION A A BAJOBAJO COSTOCOSTO
TODOS LOSCALL DETAIL
RECORDS
TODAS LAS TRANSACCIONES
TODAS LAS SECUENCIAS DE
SITIOS WEB
TODAS LAS CONVERSACIONES
DE LOS CALLCENTERS
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Y ANALIZARLOSEN SU TOTALIDAD...
EJECUTANDOTODAS LAS
ITERACIONES QUE NECESITE...
A MUY BAJOCOSTO RELATIVO
-
PONIENDONOSPONIENDONOSEN EN CONTEXTOCONTEXTO
INTELIGENCIAINTELIGENCIA O O FUERZAFUERZA BRUTABRUTA??
Todos los modelos son incorrectos, pero algunos son tiles (George Box, estadstico, 18 de Octubre de 1919 28 de Marzo de 2013).
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Todos los modelos son incorrectos, y cada vez ms podemos tener xito sin ellos (Peter Norvig, director de investigacin de Google, 14 de Diciembre de 1956).
-
Gasto de U.S.A. en ciencia y tecnologa...
Suicidios por estrangulamiento, ahorcamiento y sofocacin
Correlacin 0.992082 con...
CORRELACIONCORRELACION NO NO SIGNIFICASIGNIFICA NECESARIAMENTENECESARIAMENTE CAUSALIDADCAUSALIDADCUIDADOCUIDADO CONCONLASLAS APARIENCIASAPARIENCIAS
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Fuente: Spurious Correlations; http://www.tylervigen.com/
-
Cantidad de gente que se ahoga nadando en una pileta...
Potencia generada por las plantas nucleares
Correlacin 0.901179 con...
CORRELACIONCORRELACION NO NO SIGNIFICASIGNIFICA NECESARIAMENTENECESARIAMENTE CAUSALIDADCAUSALIDADCUIDADOCUIDADO CONCONLASLAS APARIENCIASAPARIENCIAS
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Fuente: Spurious Correlations; http://www.tylervigen.com/
-
Consumo de queso per capita...
Muertes por enredo en la ropa de cama
Correlacin 0.947091 con...
CORRELACIONCORRELACION NO NO SIGNIFICASIGNIFICA NECESARIAMENTENECESARIAMENTE CAUSALIDADCAUSALIDADCUIDADOCUIDADO CONCONLASLAS APARIENCIASAPARIENCIAS
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Fuente: Spurious Correlations; http://www.tylervigen.com/
-
PONIENDONOSPONIENDONOSEN EN CONTEXTOCONTEXTO
COMPONENTESCOMPONENTES BSICOSBSICOS HACEHACE 40 40 AOSAOS
Desde los inicios de la informtica un computador, ya sea personal o empresarial est compuesto de 3 componentes principales.
MEMORIARAMRAM
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
UNIDADES DEALMACENAMIENTO
UNIDADES DEPROCESAMIENTO
DiskDiskDiskDiskDiskDisk
CPUCPU CPUCPU
-
RAMRAMRAMRAM
RAMRAMRAMRAM
PONIENDONOSPONIENDONOSEN EN CONTEXTOCONTEXTO
COMPONENTESCOMPONENTES BSICOSBSICOS EN LA EN LA ACTUALIDADACTUALIDAD
Pero ahora... en Procesamiento Masivamente Paralelo !!!
MEMORIARAMRAM RAMRAM
Desde los inicios de la informtica un computador, ya sea personal o empresarial est compuesto de 3 componentes principales.
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
DiskDiskDiskDiskDiskDisk
RAMRAM
CPUCPUCPUCPU
DiskDiskDiskDiskDiskDisk
RAMRAM
CPUCPU CPUCPU
DiskDiskDiskDiskDiskDisk
RAMRAM
CPUCPU CPUCPU
DiskDiskDiskDiskDiskDisk
RAMRAM
CPUCPU CPUCPU
DiskDiskDiskDiskDiskDisk
CPUCPU CPUCPU
DiskDiskDiskDiskDiskDisk
CPUCPU CPUCPU
UNIDADES DEALMACENAMIENTO
UNIDADES DEPROCESAMIENTO
DiskDiskDiskDiskDiskDisk
CPUCPU CPUCPU
DiskDiskDiskDiskDiskDisk
CPUCPU CPUCPU
-
HADOOPHADOOP CASOSCASOS DE DE USOUSO
Proyecto Durkheim
Craig Venter, Celera Genomics eBay
Aproximadamente 15 terabytes. 200.000.000 grabaciones por da. Importaciones masivas (bulk load): 500.000.000 de filas en 30 minutos.
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Importaciones masivas (bulk load): 500.000.000 de filas en 30 minutos. 1,2 terabytes importados cada da.
Facebook Almacenamiento de mensajes y sus ndices. 75.000.000.000 de lecturas/grabaciones por da. En momentos pico 1.500.000 de operaciones por segundo. 2 petabytes en HBase.
-
HADOOPHADOOP TAMAOS EN PERSPECTIVATAMAOS EN PERSPECTIVA
TRANSACCIONES BANCARIASBytes / Transaccin CienBytes en 1 TB Un billnTransacciones en 1 TB Diez mil millones
A 300 Txs / Segundo 4 aos de transaccionesde das hbiles de 8 horas
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
de das hbiles de 8 horas
SHORT MESSAGES SERVICESTamao mximo Ciento sesenta caracteresTamao promedio 25SMS promedio en 1 TB Cuarenta mil millones
-
HADOOP ECOSISTEMA HADOOP (COMPONENTES)
SISTEMA DEARCHIVOS
HDFS
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
MODELO DEPROGRAMACION
MAP/REDUCE(Y OTROS)
-
BIG DATABIG DATA RELACIONRELACION ENTRE ENTRE HADOOPHADOOP Y BIG DATAY BIG DATA
Entonces Big Data...
Significa Procesamiento Masivamente Paralelo (MPP)... Big Data necesariamente es Hadoop?.
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Big Data es necesariamente HDFS? Big Data es necesariamente MapReduce?
-
DIGRESIONDIGRESION QUEQUE ESES UN FILE SYSTEM?UN FILE SYSTEM?
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
UN FILE SYSTEM NO DETERMINA EL FORMATO DE
LO QUE ALMACENAMOS EN EL
-
HADOOPHADOOP PREMISASPREMISAS FUNDAMENTALESFUNDAMENTALES DE DE DISEODISEO
Concepto central: Distribuir los datos inicialmente a medida que van siendo almacenados en el sistema. Cada nodo trabaja con los datos locales de ese nodo. Los datos son replicados mltiples veces en diferentes nodos. Los clculos ocurren donde sea que estn almacenados los datos.
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Los nodos intercambian entre ellos la menor cantidad de informacin posible. Arquitectura shared nothing.
-
HDFSHDFS UN PAR DE UN PAR DE ESQUEMASESQUEMAS GRAFICOGRAFICO Y Y SEGUIMOSSEGUIMOS......
Los bloques son replicados en los nodos componentes del cluster. Basados en un factor de replicacin (por defecto 3).
La replicacin no slo mejora la disponibilidad, sino la performance. Mayores oportunidades para conseguir datos locales.
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
-
HDFSHDFS OTROOTRO ESQUEMAESQUEMA GRAFICOGRAFICO
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
-
HDFSHDFS MAS MAS PREMISASPREMISAS DE DE DISEODISEO HADOOPHADOOP Almacenamiento redundante para volmenes masivos de informacin,
previendo alta cantidad de fallas de los componentes. Utilizando hardware commodity que tienden a fallar frecuentemente.
Basado en Google File System. Diseado para archivos terabytes o petabytes.
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Enormes flujos de lecturas secuenciales. Favorece un throughput muy elevado y sostenido sobre la baja latencia. No hay acceso random competitivo contra los mtodos tradicionales
(transaccionales). Muchos proyectos en investigacin.
-
HADOOP/MAP-REDUCE Y ECOSISTEMA
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
HADOOP/MAP-REDUCE Y ECOSISTEMA
-
MAP_REDUCEMAP_REDUCE PROCESOPROCESO DE DE CONTEOCONTEO DE DE PALABRASPALABRAS
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
-
MAP_REDUCEMAP_REDUCE PROCESOPROCESO DE JOIN DE JOIN SQLSQL
Apareando la variable 3 del Input A con la variable 1 del Input B... Informar la variable 2 del Input A y la variable 4 del input B.
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
-
MAP_REDUCEMAP_REDUCESOLO PARA SOLO PARA ASUSTARASUSTAR... ... ((DESPUESDESPUES PASARPASAR))PROGRAMAPROGRAMA MAP REDUCE DE MAP REDUCE DE SENTENCIASENTENCIA JOIN JOIN SQLSQL
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
-
MAP_REDUCEMAP_REDUCE PROCESOPROCESO DE DE SUMASUMA DE VARIABLESDE VARIABLES
Informar la suma de las variables del Input A y B cuyas claves apareen.
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
-
MAP_REDUCEMAP_REDUCE ENCADENAMIENTOENCADENAMIENTO DE DE PROGRAMASPROGRAMAS MAP_REDUCEMAP_REDUCE Hay que disear el programa pensando en el paralelismo (analoga OOP).
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Grfico tomadode Oracle
-
HADOOP ECOSISTEMA HADOOP (COMPONENTES)
Apache Hive
Apache Pig
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Apache HBase
Apache Sqoop Apache Flume
Apache Mahout
-
HADOOPHADOOP--HIVEHIVE PRINCIPALESPRINCIPALES CARACTERSTICASCARACTERSTICAS Lenguaje similar a SQL para acceder a
datos en HDFS. Nacido en Facebook.
Se accede desde Hive Shell, como instruccin de programa o herramientas de terceros (Hue Cloudera).
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
de terceros (Hue Cloudera). Almacena sus metadatos en una base
local en el cliente (generalmente mySQL).
Sus tablas son directorios de archivos almacenados en HDFS.
Mencionar Impala
-
HADOOP-HIVE JAVA MAP_REDUCE VS HIVE
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
-
HADOOPHADOOP--PIGPIG PRINCIPALESPRINCIPALES CARACTERSTICASCARACTERSTICAS Y Y SINTAXISSINTAXIS
Lenguaje de scripting (PigLatin) para acceder a datos en HDFS Nacido en Yahoo. Se accede desde Hive Shell, como instruccin de programa o herramientas
de terceros (Hue Cloudera). Almacena sus metadatos en una base local en el cliente (generalmente
mySQL).
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
mySQL). Sus tablas son directorios de archivos almacenados en HDFS.
stock = LOAD '/user/fred/stock' AS (id, item);orders= LOAD '/user/fred/orders' AS (id, cost);grpd = GROUP orders BY id;totals = FOREACH grpd GENERATE group, SUM(orders.cost) AS t;result = JOIN stock BY id, totals BY group;DUMP result;
-
HADOOPHADOOP--PIGPIG HIVE VS. PIGHIVE VS. PIG
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Si se siente cmodo con SQL tender a usar Hive, si no Pig. Pig es mejor para datos no estructurados. Hay quienes utilizan Pig para
darle estructura a datos no estructurados que luego procesan con Hive.
-
HADOOPHADOOP INTEGRACIONINTEGRACION EN LA EN LA INFRAESTRUCTURAINFRAESTRUCTURA ACTUALACTUAL
FLUME
Servicio distribuido para mover grandes volmenes de datos en el mismo momento en el que son generados. Ideal para capturar logs desde mltiples sistemas e insertarlos en HDFS.
SQOOP
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
SQOOP
Aplicacin para transferir datos entre RDBMS y HDFS en varios formatos, Hive o HBase. Algunos conectores: MS SQL Server, MySQL, Oracle, Teradata, Netezza.
-
PARTE 3HADOOP VERSION 2
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
HADOOP VERSION 2
-
HADOOPHADOOP HADOOPHADOOP 1.0 1.0 REQUERIMIENTOSREQUERIMIENTOS PARA PARA HADOOPHADOOP 2.02.0
Alta disponibilidad para el NameNode HDFS.
NameNode federado para mayor escalabilidad.
Acceso NFS para montar HDFScomo un file system estndar.
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Grfico tomadode Hortonworks
Encripcin de datos en trnsito.
Sistema YARN de administracin de recursos.
Separacin de HDFS respectoal modelo de programacinMapReduce.
-
HADOOPHADOOP HADOOPHADOOP 2.02.0
nico UsoAplicaciones Batch
Plataforma multi-propsitoBatch, Interactivo, Online, Streaming
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Grfico tomadode Hortonworks
-
HADOOPHADOOP HADOOPHADOOP 2.0 2.0 MODELOSMODELOS DE DE PROGRAMACIONPROGRAMACION
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Grfico tomadode Hortonworks
-
HADOOPHADOOP COMPARACIONCOMPARACION V1 VS. V2 (YARN)V1 VS. V2 (YARN)RESOURCERESOURCE MANAGEMENTMANAGEMENT MAPMAP--REDUCEREDUCE RESOURCERESOURCE MANAGEMENTMANAGEMENT YARNYARN
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
-
SPARK (ON HADOOP)SPARK (ON HADOOP) QUEQUE ESES SPARK?SPARK?
Motor de ejecucin distribuido preferentemente en memoria. Map_Reduce necesariamente utiliza discos para pasar los
resultados intermedios
RDD (Resilient Distributed Datasets) Estructura de datos en memoria con interfaz API basada en
transformaciones y acciones.
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
transformaciones y acciones.
Partitioning-aware para reducir shuffles por la red. APIs nativas en Scala, Java y Python. Ejecuta en modalidad stand-alone o sobre Hadoop.
Se lleva muy bien con Hadoop. Compatible con las APIs de almacenamiento de Hadoop. Compatible con YARN.
-
SPARK (ON HADOOP)SPARK (ON HADOOP) CONTEOCONTEO DE DE PALABRASPALABRAS 50+ lneas en Map_Reduce
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
3 lneas en Spark
-
SPARK (ON HADOOP)SPARK (ON HADOOP) QUEQUE ESES SPARK?SPARK?
Map-Reduce no se lleva bien con aplicaciones complejas. Entonces comenzaron a aparecer aplicaciones especializadas
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
-
SPARK (ON HADOOP)SPARK (ON HADOOP) QUEQUE ESES SPARK?SPARK?
Plataforma integrada para analtica sobre Hadoop
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
-
SPARK (ON HADOOP)SPARK (ON HADOOP) SPARK BUILDING BLOCKSSPARK BUILDING BLOCKS
Resilient Distributed Datasets, Transformaciones y Acciones
map, filter, groupBy, sort, union, join, leftOuterJoin, rightOuterJoin, reduce, count, fold, reduceByKey,
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
reduceByKey, groupByKey, cogroup, cross, zip, sample, take, first, partitionBy, mapWith, pipe, save
-
SAS EN HADOOP
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
SAS EN HADOOP
-
NECESIDADNECESIDAD A A RESOLVERRESOLVER
INTERACCIONINTERACCION CON SAS CON CON SAS CON HADOOPHADOOP
Si est planificando o comenzando a utilizar Hadoop
Si utiliza SAS como plataforma analtica y ahora quiere utilizarlasobre Hadoop.
Si quiere utilizar Hadoop y no quiere agregar otra herramienta
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Si quiere utilizar Hadoop y no quiere agregar otra herramientaanaltica ms.
Si quiere hacer anlisis de datos en forma simultnea sobreplataformas RDBMS y Hadoop.
Si no sabe como analizar los enormes volmenes de datos quepuede almacenar Hadoop.
-
HADOOPHADOOP COMO NUEVO ALMACENAMIENTO DE DATOSCOMO NUEVO ALMACENAMIENTO DE DATOSTITULOTITULOSASSAS SOBRESOBRE HADOOPHADOOP
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
http://blogs.sas.com/content/sascom/2014/10/13/adopting-hadoop-as-a-data-platform/
-
HADOOPHADOOP COMO INPUT AL DATA COMO INPUT AL DATA WAREHOUSEWAREHOUSE CORPORATIVOCORPORATIVOTITULOTITULOSASSAS SOBRESOBRE HADOOPHADOOP
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
-
HADOOPHADOOP COMO BASE PARACOMO BASE PARABUSINESSBUSINESS INTELLIGENCEINTELLIGENCE Y ANALTICA DE NEGOCIOSY ANALTICA DE NEGOCIOS
TITULOTITULOSASSAS SOBRESOBRE HADOOPHADOOP
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
-
SAS SOBRE SAS SOBRE HADOOPHADOOP
TODAS LAS MODALIDADESTODAS LAS MODALIDADES
COMO REPOSITORIO DE INFORMACION
Facilitando la implementacin y ejecucin de todas lasmodalidades.
En forma progresiva o consolidada.
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
INFORMACION
+ PROCESAMIENTO EN PARALELO MODALIDAD MAP-REDUCE
+ PROCESAMIENTO EN PARALELO MODALIDAD IN-MEMORY
-
SAS SAS PROCESAMIENTOPROCESAMIENTO
EN EN PARALELOPARALELO
EJECUCIONEJECUCION DE THREADED KERNEL EN LOS APPLIANCES DE THREADED KERNEL EN LOS APPLIANCES DE BASES DE DE BASES DE DATOSDATOS Y CLUSTERS Y CLUSTERS HADOOPHADOOP
TK runs in Database (New)TK runs on Client (Old)
SAS Server
SAS Procs
TK
SAS Server
SAS Procs
Database Appliance / Hadoop ClusterDatabase Appliance / Hadoop Cluster
Database Appliance / Hadoop ClusterThreaded Kernel
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Database Appliance
Data Data Data
DatabaseProcess
Database Appliance / Hadoop Cluster
Data Data Data
Database Process
Threaded Kernel(TK)
EP HPA LASR
Database Appliance / Hadoop Cluster
Data Data Data
Database Process
Threaded Kernel(TK)
EP HPA LASR
Data Data Data
Database Process
Threaded Kernel(TK)
EP HPA LASR
Data Data Data
Database Process
Threaded Kernel(TK)
EP HPA LASR
-
SAS SOBRE HADOOP COMOREPOSITORIO DE DATOS ANALITICOS
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
SAS SOBRE HADOOP COMOREPOSITORIO DE DATOS ANALITICOS
-
SAN
SAN
SAN
SAN
HADOOPHADOOP COMO REPOSITORIO DE DATOS ANALTICOSCOMO REPOSITORIO DE DATOS ANALTICOS
SAS data sets
1AA
SAS GridSAS Grid
SASSAS ININ--DATABASEDATABASE
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Hadoop ClusterHadoop Cluster
Distributed SAS Data Sets
Distributed SAS Data Sets
-
HADOOPHADOOP COMO REPOSITORIO DE DATOS ANALTICOSCOMO REPOSITORIO DE DATOS ANALTICOSOPERACIONESOPERACIONES PRIMARIASPRIMARIAS CON CON SASSAS DATA INTEGRATIONDATA INTEGRATION
Transferir y transformar tablas SAS desde y haciaclusters Hadoop.
SAS SOBRE SAS SOBRE HADOOPHADOOP
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Delimitados por caracteres, XML, JSON, entre otros
Construir y ejecutar programas Map-Reduce. Construir y ejecutar programas Pig. Construir y ejecutar programas Hive.
-
OPERACIONES HADOOP DESDE PROGRAMAS SASPIG Y MAP-REDUCE
/*Run PIG script*/filename cfg "C:\Sample_Data\hadoop_config.xml";filename pigcode1 "C:\Sample_Data\pig_cd.txt";proc hadoop options=cfg username="hadoop password="hadoop"verbose;
pig code=pigcode1 ;run;
El sgte. script PIG Latin script lee el archivo NYSE_dividendos desde HDFS y lo agrupa por simbolo. Luego, calcula el promedio de dividendos de cada grupo y
SAS SOBRE SAS SOBRE HADOOPHADOOP
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
agrupa por simbolo. Luego, calcula el promedio de dividendos de cada grupo y lo almacena en la carpeta HDFS d_promedio_dividendos.
CD NYSE ;
d_dividendos = LOAD 'NYSE_dividendos' as (d_exchange, d_simbolo, d_fecha, d_dividendo_ind);
d_grouped = GROUP d_dividendos BY d_simbolo;
d_promedio = FOREACH d_grouped GENERATE group, AVG(d_dividendos.d_dividendo_ind);
STORE d_promedio INTO 'd_promedio_dividendos';
-
OPERACIONES HADOOP COMO CON CUALQUIER DBHIVE
LIBNAME cdh_hdp HADOOP PORT=10000 SERVER=sascldserv02 user=hadoop password=hadoop ;/* Create new table*/proc sql;connect to hadoop(PORT=10000 SERVER=sascldserv02 USER=hadoop PASSWORD="hadoop"); exec( create table cars_prc (make string, model string, msrp double) ) by hadoop; quit;
/* Copy from another table*/
SAS SOBRE SAS SOBRE HADOOPHADOOP
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
*/proc sql;
insert into cdh_hdp.cars_prc select make, model, msrp from sashelp.cars ;
quit;/* List contents*/proc sql; select * from cdh_hdp.cars_prc; quit;
-
BENEFICIOSBENEFICIOSSAS SAS SOBRESOBREHADOOPHADOOP
Sustanciales ahorros de costos de almacenamiento
Mejora de performance
Beneficios
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Mejora de performance Sin lmite en el ancho de las tablas
soportadas (>2000 variables) Optimizacin del costo de
proteccin de datos mediante la replicacin HDFS
-
SAS SOBRE HADOOPIN-DATABASE
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
IN-DATABASE
-
DBMS
SAS
DataData
DBMS
SAS
MODALIDADSAS
NATIVADataData
MODALIDAD SAS
IN-DATABASE
HADOOP COMO REPOSITORIOHADOOP COMO REPOSITORIOY PARA PROCESAMIENTO Y PARA PROCESAMIENTO MODALIDAD MAPMODALIDAD MAP--REDUCEREDUCESAS INSAS IN--DATABASEDATABASE
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Modo tradicional de operacin SAS Actividades que requieren entorno de ejecucin SAS
Que no pueden ser ejecutadas mediante SQL Que ejecutan mejor en entornos nativos SAS Soluciones SAS
SAS In-Database Transformaciones de SAS Data Integration Reportes basados en queries SQL Lenguaje DS2 SAS Scoring Accelerator SAS Data Quality Accelerator
-
SAN
SAN
SAN
SAN
HADOOP COMO REPOSITORIO Y PARA PROCESAMIENTOHADOOP COMO REPOSITORIO Y PARA PROCESAMIENTOMODALIDAD MAPMODALIDAD MAP--REDUCEREDUCE
SAS data sets
1AA
SAS GridSAS Grid
SAS INSAS IN--DATABASEDATABASESOBRE HADOOPSOBRE HADOOP
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Hadoop ClusterHadoop Cluster
Distributed SAS Data Sets
Distributed SAS Data Sets
SAS Embedded Process ofrece: SAS Code Accelerator for Hadoop SAS Data Quality Accelerator for Hadoop SAS Scoring Accelerator for Hadoop
SAS Embedded Process ofrece: SAS Code Accelerator for Hadoop SAS Data Quality Accelerator for Hadoop SAS Scoring Accelerator for Hadoop
EP
-
Business Users / Analysts
Exploracin, Visualizaciny Analtica Avanzada
SAS VisualAnalytics / Statistics
SAS Data Loader for Hadoop
Preparacin yCalidad de Datos
Self-service data manipulation in Hadoop + Loading into distributed
SAS LASR Servers
SAS DATA LOADER FOR HADOOPSAS DATA LOADER FOR HADOOPFACILITANDOFACILITANDOHADOOPHADOOP
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
SASSAS LASR LASR ANALYTIC ANALYTIC SERVERSERVEROn-Hadoop data processing (Code Accelerator +
Data Quality Accelerator)
-
SAS DATA LOADER SAS DATA LOADER FOR HADOOP 2.1FOR HADOOP 2.1
Autoservicio de datos para los usuarios
MENUMENU PRINCIPALPRINCIPAL
Sin necesidadde codificacin
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Sin necesidad de conocimientosespecializados en Hadoop
de codificacino scripting
-
BENEFICIOSBENEFICIOSSAS INSAS IN--DATABASEDATABASESOBRE HADOOPSOBRE HADOOP
Grandes mejoras de performance Gran crecimiento del poder de
cmputo basado en el
Beneficios
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
cmputo basado en el procesamiento en paralelo de Hadoop
Significativa reduccin del movimiento de datos
-
SAS SOBRE HADOOPIN-MEMORY
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
IN-MEMORYHIGH-PERFORMANCE ANALYTICS
-
LASR SERVERLASR SERVERMODULOS SASHIGH PERFORMANCE
IMSTAT for
Hadoop*
IMSTAT for
Hadoop*
IMSTAT for
Hadoop*
SOLUCIONESSOLUCIONESANALTICASANALTICAS
PROCESAMIENTOPROCESAMIENTOEN EN PARALELOPARALELOEN MEMORIAEN MEMORIA
DIFERENCIADORES DE LOS PRODUCTOS SAS: PODER DE ANLISIS
d
e
A
n
l
i
s
i
s
High Perf. Visual Visual Visual
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Hadoop*Hadoop*Hadoop* PODER DE ANLISIS INTERCATIVIDAD / CONCURRENCIA DE MLTIPLES USUARIOS FLEXIBILIDAD / FACILIDAD DE USO
Interactividad / Concurrencia de Mltiples Usuarios
P
o
d
e
r
d
e
Batch Interactivo
High Perf.
Data Mining
High Perf.
Statistics
Visual
Analytics
Visual
Analytics
*SAS In-Memory Statistics for Hadoop
Visual
Statistics
Visual
Statistics
Visual
Statistics
-
SAN
SAN
SAN
SAN
METODOSMETODOS SASSAS NATIVOSNATIVOSAHORA EJECUTANDO EN MODALIDAD AHORA EJECUTANDO EN MODALIDAD ININ--MEMORYMEMORY
SAS data sets
1AA
SAS GridSAS Grid
SAS SOBRE SAS SOBRE HADOOPHADOOP
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Hadoop ClusterHadoop Cluster
Distributed SAS Data Sets
Distributed SAS Data Sets
SAS High Performance Analytics ofrece: SAS High-Performance Statistics SAS High-Performance Data Mining SAS High-Performance Text Mining SAS High-Performance Optimization SAS High-Performance Econometrics SAS High-Performance Forecasting
SAS High Performance Analytics ofrece: SAS High-Performance Statistics SAS High-Performance Data Mining SAS High-Performance Text Mining SAS High-Performance Optimization SAS High-Performance Econometrics SAS High-Performance Forecasting
HPA
-
METODOSMETODOS SASSAS NATIVOSNATIVOSAHORA EJECUTANDO EN MODALIDAD INAHORA EJECUTANDO EN MODALIDAD IN--MEMORYMEMORY
SAS data sets
1AASAS SOBRE SAS SOBRE HADOOPHADOOP
Sample Explore Modify Model Assess CASO DE USOModelo de
propnsin a compra en cadena
de hoteles;Regresin logstica;
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Regresin logstica;20 horas vs 20
minutos;a igual inversin
-
SAS SOBRE HADOOPIN-MEMORY
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
- VISUAL ANALYTICS- VISUAL STATISTICS- IN-MEMORY STATISTICS FOR HADOOP
...TODOS BASADOS EN LASR SERVER
-
LASR SERVERMODULOS SASHIGH PERFORMANCE
IMSTAT for
Hadoop*
SOLUCIONESSOLUCIONESANALTICASANALTICAS
PROCESAMIENTOPROCESAMIENTOEN EN PARALELOPARALELOEN MEMORIAEN MEMORIA
DIFERENCIADORES DE LOS PRODUCTOS SAS: PODER DE ANLISIS
d
e
A
n
l
i
s
i
s
High Perf. Visual
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Hadoop* PODER DE ANLISIS INTERCATIVIDAD / CONCURRENCIA DE MLTIPLES USUARIOS FLEXIBILIDAD / FACILIDAD DE USO
Interactividad / Concurrencia de Mltiples Usuarios
P
o
d
e
r
d
e
Batch Interactivo
High Perf.
Data Mining
High Perf.
Statistics
Visual
Analytics
*SAS In-Memory Statistics for Hadoop
Visual
Statistics
-
LASR ANALYTICS SERVER
SERVIDOR ANALTICO: SUS INSTRUCCIONES EJECUTAN DIRECTAMENTE FUNCIONES ANALITICAS (ACCIONES)
SOBRE TABLAS EN MEMORIA: SASIOLA ENGINE; EN MODALIDAD STATELESS
NOMINA DE ACCIONESADDTABLE, ADDTKHPSTABLE, APPENDTABLE, ASSESS, BOXPLOT, CLASSLEVELS, CLUSTER, COLUMNINFO, CONTOURPLOT, COMPUTEDCOLUMN, CORRELATION, CROSSTAB, DECISIONTREE, DELETEROWS, DIRECTLOAD, DISTINCTCOUNT,
SAS LASRSAS LASRANALYTICS SERVERANALYTICS SERVER
SERVIDOR ANALTICO...SERVIDOR ANALTICO...QU ES UN SERVIDOR QU ES UN SERVIDOR ANALTICOANALTICO??
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
COMPUTEDCOLUMN, CORRELATION, CROSSTAB, DECISIONTREE, DELETEROWS, DIRECTLOAD, DISTINCTCOUNT, DISTRIBUTIONINFO, DROP, DROPTABLE, EXPORT, EXTERNAL, FETCHROWS, FITMODEL, FORECASTSERIES, FREQUENCY, GROUPBY, HISTOGRAM, IMPORT, IMPORTCUBE, KERNELDENS, LIFETIME, LISTSORTS, MDSUMMARY, NUMROWS, OPTIMIZE, PARALLELCOORDINATES, PARTITION, PARTITIONINFO, PERCENTILE, PROMOTE, PSPLINE, PURGETEMPTABLES, RANDOMFOREST, REALSCATTER, RECOMMEND, REGCORR, REGRESSION, SAVETABLE, SCHEMA, SCORE, SERVERINFO, SERVERPARM, SERVERVERSION, SETTABLES, SCATTERPLOT, SCATTERPLOTMATRIX, SORTORDER, SUMMARY, TABLEINFO, TERMINATE, TEXTPARSE, TOPK, UPDATE
INTERFAZ CLIENTE JAVA: VISUAL ANALYTICS, VISUAL STATISTICS INTERFAZ IMSTAT: PROGRAMACION SAS INTERFACES PARTICULARES: VASMP, HPAML INTERFAZ PROGRAMACION C
-
SAN
SAN
SAN
SAN
HADOOP COMO REPOSITORIO HADOOP COMO REPOSITORIO YYPARA PROCESAMIENTO PARA PROCESAMIENTO MODALIDAD INMODALIDAD IN--MEMORYMEMORY
SAS data sets
1AA
SAS GridSAS Grid
SAS LASRSAS LASRANALYTICS SERVERANALYTICS SERVER
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Hadoop ClusterHadoop Cluster
Distributed SAS Data Sets
Distributed SAS Data Sets
SAS LASR Server ofrece: SAS Visual Analytics SAS Visual Statistics SAS In-Memory Statistics for Hadoop
SAS LASR Server ofrece: SAS Visual Analytics SAS Visual Statistics SAS In-Memory Statistics for Hadoop
LASR
-
SASSAS LASRLASRANALYTIC SERVERANALYTIC SERVER
INTERFACES PARA LAS DIFERENTES NECESIDADESINTERFACES PARA LAS DIFERENTES NECESIDADESDE LOS DIFERENTES TIPOS DE USUARIOSDE LOS DIFERENTES TIPOS DE USUARIOS
DATA SCIENTIST /PROGRAMMER
VisualVisualAnalyticsAnalytics
VisualVisualStatisticsStatistics
IMSTAT for IMSTAT for HadoopHadoop**
GUI GUI PROGRAMMING
BUSINESS ANALYST
STATISTICIAN
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Data Data ManipulationManipulation
Data Data ManipulationManipulation
Exploration/Exploration/VisualizationVisualizationExploration/Exploration/VisualizationVisualization
ModelingModelingModelingModeling DeploymentDeploymentDeploymentDeploymentData Data
ManipulationManipulationData Data
ManipulationManipulationData Data
ManipulationManipulationExploration/Exploration/VisualizationVisualizationExploration/Exploration/VisualizationVisualizationExploration/Exploration/VisualizationVisualization
ModelingModelingModelingModelingModelingModeling DeploymentDeploymentDeploymentDeploymentDeploymentDeployment
AnalyticsAnalytics StatisticsStatistics HadoopHadoop**
*SAS In-Memory Statistics for Hadoop
-
SAS VISUAL ANALYTICS
Central Entry Point Integration Role-based Views
ANALISIS EXPLORATORIOSANALISIS EXPLORATORIOSESTADSTICA Y MINERA DE DATOS BSICASESTADSTICA Y MINERA DE DATOS BSICAS
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
MOBILE BIDATA BUILDER EXPLORER DESIGNER Aplicaciones para iOS
y Android para visualizacininteractive de reportes
Operaciones relacionales desde diversas fuentes
Creacin de columnascalculadas
Carga de datos
Descubrimiento de patrones y anlisis de datos
Analtica avanzada
Creacin de reports del tipo tablero de control para visualizarlos en la Web o en dispositivosmviles
SASSAS LASRLASR ANALYTIC SERVERANALYTIC SERVER
ADMINISTRATOR Monitor SAS LASR
Analytic server Carga y descarga de
datos Administracin de
seguridad
-
Anlisis de Recorridos Para analizar el flujo de navegacin de los usuarios sobre los sitios Web.
Bsqueda de Objetivos y Anlisis de Escenarios Anlisis visual de escenarios de forecast, pudiendo modificar el objetivo para que
VA encuentre los parmetros a modificar para alcanzarlo.
Anlisis de Sentimientos
SAS VISUAL ANALYTICS
ALGUNAS DE LAS MEJORAS DE LA ALGUNAS DE LAS MEJORAS DE LA VERSIONVERSION 7.17.1
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Anlisis de Sentimientos Sentimiento de los usuarios sobre temas especficos o documentos enteros.
Carga en paralelo Desde Cloudera Impala, SAP HANA, Teradata, Greenplum and Oracle.
Compresin de datos en el servidor analtico LASR. Reportes Administrativos Pre-Construdos
Para administrar en forma eficiente el entorno VA/LASR.
-
SAS VISUAL STATISTICS
ESTADSTICA ESTADSTICA Y MINERA DE DATOS Y MINERA DE DATOS AVANZADAAVANZADA
Entorno totalmente interactive para el modelado estadstico en forma visual Los modelos estadsticos ejecutan en SAS LASR Server Misma interfaz de usuario que Visual Analytics
Funcionalidades principales Mltiples usuarios concurrentes sobre copia nica de los datos.
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Mltiples usuarios concurrentes sobre copia nica de los datos. Estadstica clsica: Regresiones multiples, Regresin logstica, Anlisis de varianza, Modelo
lineal generalizado, Clustering. Estadstica moderna / Machine learning (rboles de decisin, Random forest, Clasificadores
de Bayes ingenuos). Procesamiento GROUP BY en paralelo. Descubrimiento visual de puntos crticos como outliers y puntos de influencia.
-
ACCESO PROGRAMTICOACCESO PROGRAMTICOA TODA LA FUNCIONALIDAD DEL LASR SERVERA TODA LA FUNCIONALIDAD DEL LASR SERVER
SASSAS ININ--MEMORYMEMORYSTATISTICSSTATISTICS
FOR HADOOPFOR HADOOP
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
LASR Analytic Serveron Hadoop
SAS Server ~ BASE, ODS, Access to Hadoop ,LASR
12 bytes (IMSTAT, RECOMMEND Etc..)
SAS WebOne HTML 5 Modern Coding Environment
~ Happy Data Scientists & SAS Analysts
-
Data Manipulation SAS Data Step BALANCE COLUMINFO COMPUTE DELETEROWS DISTINCT DROPTABLE FETCH GROUPBY
Data Exploration/Visualization BOXPLOT CORR CROSSTAB CONTOURPLOT
Miscellaneous EXTERNAL (C API) FREE SAVE STORE
Predictive Modeling DECISIONTREE FORECAST GENMODEL GLM RANDOMWOODS ASSESSMENTDescriptive Modeling CLUSTER CLUSTER TF-IDF ASSOCIATIONS SVDRecommender CLUSTER KNN
SASSAS ININ--MEMORYMEMORYSTATISTICSSTATISTICS
FOR HADOOPFOR HADOOP
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
GROUPBY PARTITION PROMOTE PURGETEMPTABLES SET TABLE UPDATE
CONTOURPLOT DISTRIBUTIONINFO FREQUENCY HISTOGRAM KDE REPLAY SUMMARY
KNN ASSOCIATIONS SVDText Analytics PARSING SVD
Deployment SCORE
-
VISUAL VISUAL ANALYTICSANALYTICS / VISUAL / VISUAL STATISTICSSTATISTICSININ--MEMORYMEMORY STATISTICSSTATISTICS FORFOR HADOOPHADOOP
SAS LASRSAS LASRANALYTICS SERVERANALYTICS SERVER
Incremento masivo de la performance
Simplificacin de la administracin
Beneficios Caso Modelo FraudeAlta Complejidad
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
Simplificacin de la administracinde recursos
Optimizacin del movimiento de datos mediante gran paralelismo
Adaptado para desarrollar / ejecutar todo tipo de modelos analticos Clustering + Impacto + Tiempo + Secuencia
-
SAS ON HADOOPSAS ON HADOOP NUESTRA VISIN...NUESTRA VISIN...
SAS seguir siendo la empresa ms fuerte en analtica de negocios sobre Hadoop, siendo sta su plataforma de preferencia.
Su posicin podra ser amenazada por Apache Spark si SAS no contina las mejoras constantes sobre su plataforma
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
no contina las mejoras constantes sobre su plataforma(SAS MVA, SAS in-database, SAS LASR).
Cuales sern nuestros pasos en el futuro?.
-
LINEAMIENTOS PARA LA IMPLEMENTACION DEUN LABORATORIO ANALITICO DE SAS SOBRE HADOOP
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved. www.SAS.com
UN LABORATORIO ANALITICO DE SAS SOBRE HADOOP
-
SASSAS LASRLASRANALYTIC SERVERANALYTIC SERVER
RELACIONRELACION LASRLASR SERVER CONSERVER CONLA ARQUITECTURA GENERAL DE LA ARQUITECTURA GENERAL DE SASSAS
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
-
SASSAS LASRLASRANALYTIC SERVERANALYTIC SERVER
DENTRO DE LOS SERVIDORES DEL LASR SERVERDENTRO DE LOS SERVIDORES DEL LASR SERVER
FEATURE CANTIDAD
PROCESADORES2 x Intel E5-2665 (Total 16 cores)
RAM 256 GB
3 x 1TB 7.2K
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
DISCO3 x 1TB 7.2K SAS HDDs
CONEXION A RED 4 X GbE
SOPORTE 3 aos 7 x 24
PRECIO DE REFERENCIA
U$S 14K
-
SASSAS LASRLASRANALYTIC SERVERANALYTIC SERVER
PLAN TENTATIVO DE PLAN TENTATIVO DE IMPLEMENTACIONIMPLEMENTACIONDE LABORATORIO ANALTICO DE LABORATORIO ANALTICO SASSAS SOBRE SOBRE HADOOPHADOOP
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
-
BIG DATABIG DATASASSAS SOBRESOBRE HADOOPHADOOP
LE PROPONEMOS COMENZAR...LE PROPONEMOS COMENZAR...
Big Data / Hadoop:Nueva tecnologa para resolver grandes problemas de negocio a bajo costo
SAS sobre Hadoop:SAS adopta esta tecnologa en forma integral,
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved.
SAS adopta esta tecnologa en forma integral, minimizando su dificultad de implementacin
SAS le propone comenzar su proyecto de Big Data y crecer en forma incremental con SAS sobre Hadoop
-
GRACIAS POR LA INVITACION
Company Confidential - For Internal Use OnlyCopyright 2012, SAS Insti tute Inc. Al l r ights reserved. www.SAS.com
GRACIAS POR LA INVITACION