azure spark - big data - coresic 2016
TRANSCRIPT
Big Data es sinónimo de Grandes Cantidades de Datos
BIG DATA
BIG DATA
• ¿Cuánta data genera un vuelo comercial entre Londres y Nueva York en dispositivos electrónicos?
• 640 TB
• ¿Cuántos USB Angry Bird necesitaremos para almacenar BIG Data?
Social Network
4 v del Big Data
Tecnologia para Manejar Big Data
¿Qué es hadoop?• Hadoop consiste de dos servicios principales:
• Almacenamiento de Datos usando el Hadoop Distributed File System (HDFS)
• Procesamiento de Datos Paralelo de Alto Desempeño usando una técnica llamada MapReduce.
Spark
Spark
• Trabaja en Memoria• 100 x más rapido que Map Reduce• Soporta Tolerancia a Fallos
Spark
• Spark SQL• Spark Streaming• Mlib (Machine Learning)• GraphX
Jupiter
• Herramienta utilizada por los cientificos de datos
• Puede utilizar diferentes lenguajes de programacion (Python, R, Julia, Scala)
• Integracion con Big Data - Spark
Demo – Spark en Acción
https://www.youtube.com/watch?v=fUmgd58Xe58