big data · apache hadoop, hbase, spark, mapreduce, cassandra. fundamentos itinerario formativo...

16
Big Data The Big Picture Recolección y tratamiento de datos masivos de orígenes diversos, que representan una fuente constante para el análisis y descubrimiento de información útil para la toma de decisiones.

Upload: voduong

Post on 29-Sep-2018

232 views

Category:

Documents


0 download

TRANSCRIPT

1

Big Data The Big Picture

Recolección y tratamiento de datos masivos de orígenes diversos, que representan una fuente constante para el análisis y descubrimiento de

información útil para la toma de decisiones.

2

TECNOLOGÍAS Trabajaremos con las principales tecnologías del mercado, como Apache Hadoop, Spark y Hbase o MapReduce

INFRAESTRUCTURA Llevaremos a cabo proyectos sobre Cloudera, la distribución de Hadoop más utilizada. Pero veremos implementaciones como IBM Big Insights o MapR

ANÁLISIS Y BI Trabajaremos con Python y R como lenguajes y nos

introduciremos en suites como IBM Cognos BI o

herramientas de análisis estadístico como SPSS

VISUALIZACIÓN Nos adentraremos en el

mundo de la visualización avanzada de datos, y

trabajaremos con tableau, R y distintas librerías

python como NetworkX, matplotlib o geoplotlib

entre otras.

ALMACENAMIENTO Tendremos ocasión de trabajar con Apache Cassandra y MongoDB y estudiaremos los Big Data tradeoffs entre Bases de datos relacionales y NoSQL. También estudiaremos la idoneidad de las Graph Databases como Neo4j o GraphDB

3

Data Scientist

Ordena, clasifica y modela los datos y elabora modelos predict ivos. Las matemáticas, y las estadísticas sus armas

Data Architect

Diseña sistemas de gestión de datos e integra, centraliza y gestiona orígenes d e d a t o s . E l modelado de datos y los procesos ETL son su ámbito.

Data Analyst

Recolecta, procesa y realiza análisis estadísticos para llegar a enunciados que representen t e n d e n c i a s o hechos reales.

Data Engineer

C o n s t r u y e n , m a n t i e n e n y evalúan soluciones Big Data diseñadas por el arquitecto.

D e c i s i o n Maker

Apoyan la toma de decisiones con las c o n c l u s i o n e s d e r i v a d a s d e l análisis de datos. Las herramientas BI son su medio

Perfiles

4

Visualización Trabajaremos con las principales librerías

Python para visualización.

Comandos en R para gráficas, Tableau

Análisis Análisis Estadístico con

R, Python. Uso de SPSS Modeler, IBM Cognos BI

Almacenamiento NoSQL vs Relational

Graph Databases MongoDB

Apache Cassandra.

Infraestructura Implementaciones de

Hadoop: Cloudera, Hortonworks,

MapR y IBM BigInsights Arquitectura

Tecnologías Principales actores en el mercado. Apache

Hadoop, Hbase, Spark, MapReduce, Cassandra.

Fundamentos

Itinerario formativo Resumen

01 02

The Big Picture Introducción al Big

Data, Usos y escenarios,

aplicaciones. Implicaciones actuales.

Perspectiva y evolución.

03 04 05 06

5

Distribución del conocimiento Cómo se organiza el contenido

F u n d a m e n t o s y Conceptos El objetivo será fundar una base só l ida donde los conceptos estén claros y se obtenga una visión actual y holística del Big Data.

Experiencia Real Nuestros expertos están trabajando en proyectos de Big Data en empresas de primer nivel. Compartirán con nosotros los casos a los que se enfrentan día a día, y analizaremos juntos las lecciones que han obtenido.

Clases Únicas Una vez a la semana recibiremos una master class de un experto en diferentes áreas que nos desvelarán los secretos y conocimientos avanzados que de otra manera tardaríamos años en adquirir.

E m i n e n t e m e n t e práctico La mayor parte del programa se dedicará a la realización tutorizada de ejercicios prácticos. Estos ejercicios serán guiados al principio pero muchos ejercicios se real izarán en equipo y podrán tener más de una solución.

Teoría Casos Reales

Master Class

Ejercicios

10% 20% 20% 50%

6

Habilidades Qué habilidades adquiriremos

Big Data Fundamentals

Analítica, Estadística y Business Intelligence Los datos necesitan un análisis para convertirse en enunciados, trabajaremos con Python, R, SPSS y Cognos

La base Una visión holística del Big

Data y las tecnologías y Soluciones a su alcance.

Tendencias y futuro.

Hadoop e implementaciones Adquiriremos dominio de la plataforma y estudiaremos las distribuciones más utilizadas, así como su idoneidad en cada tipo de proyecto.

Big Data Storage Estudiaremos los motores de bases de datos en tres

enfoques, noSQL, Relacionales y Graph

Databases. Trabajaremos con MongoDB

La representación del dato

Adquiriremos destreza en la representación de los

datos de una forma exhaustiva e intuitiva

Plataforma Hadoop

Big Data Storage

Analytics y BI

Visualization

7

Cómo nos gusta enseñar Nuestra metodología

El conocimiento se transmite. Nos apasiona nuestro trabajo y deseamos que n u e s t r o s a l u m n o s part ic ipen de nuestra ilusión. El aprendizaje se p o t e n c i a c u a n d o t e diviertes… Esto es un hecho,

Elconocimiento se adquiere Nues t ra f i l oso f ía es a p r e n d e r h a c i e n d o . Sabemos que es ahí donde necesitas nuestra guía. No te vamos a enseñar nada que puedas buscar tu mismo en Google.

8

Herramientas

01

02

03

04

05 MASTER CLASSES Y CASOS REALES

PRUEBAS DE NIVEL Y APROVECHAMIENTO

VIRTUAL & REMOTE TRAINING

LABORATORIOS ESCRITORIOS VIRTUALES

LEARN BY DOING

9

Cómo seleccionamos a los candidatos Proceso de selección

Hemos puesto mucho esfuerzo en crear estos másteres. Deseamos que todos los part icipantes disfruten aprediendo tanto como nosotros vamos a disfrutar enseñando. Necesitamos asegurarnos que todos los candidatos tienen las características y capacidades necesarias para aprovechar y asimilar los conocimientos.

Buscamos a los mejores

www.digitaltechinstitute.com/apply

10

Cómo seleccionamos a los candidatos Nuestro proceso de selección

Ilusión Preferimos una persona

apasionada que cien meramente interesadas

Conocimientos Nos aseguramos que el candidato disponga de los conocimientos necesarios para aprovechar el itinerario formativo.

Expectativas Valoramos las expectativas del candidato hacia el curso. Nos aseguramos de ofrecerte exactamente lo que estás buscando.

Trayectoria Valoramos la experiencia profesional y el perfil del candidato.

11

Establecemos las bases. Manejamos los términos de manera apropiada y definimos términos

basándonos en ejemplos.

Módulo 1 - Fundamentos

TECNOLOGÍAS Qué es Hadoop, Hive, MaReduce, HDFS. Distributed & Parallel processing y Hadoop clusters. noSQL. NewSQL. Alternativas y ecosistema Big Data.

INTRODUCCIÓN Qué es Big Data y qué no es Big Data. Casos reales de uso. Definiciones. Quién utiliza Big Data. Perfiles. Por qué es importante.

PRESENTACIÓN Presentación y definición de objetivos. Descripción general de la formación. Claves para sacar el máximo provecho. Entorno de trabajo

FUNDAMENTOS Qué necesitamos saber. Fundamentos de estadística. Conceptos relacionados con data management.

INFRAESTRUCTURA Distribuciones Hadoop. Cloudera. Hortonworks. Isotope. IBM BigInsights.

ALMACENAMIENTO Una inmersión en el mundo del almacenamiento. Descripción general del ecosistema. Tipos de motores. Datawarehousing. OLTP vs OLAP. SQL vs NoSQL. HDFS. Cassandra.

ANALÍTICA Y VISUALIZACIÓN Business Intelligence & Analytics. Herramientas. Formas de representar los datos. Herramientas ara visualización de datos.

12

Conoceremos de fondo Apache Hadoop, HDFS, MapReduce y YARN

Módulo 2 - Tecnologías MAPREDUCE Procesando datos con MapReduce. Fases Map y Reduce. Flujo de datos. Implementando MapReduce en Java. Desplegar un jar en Hadoop. Monitorización.

INSTALACIÓN Modos de Instalación. Modo Standalone. Modo pseudo-distribuido. Configurando SSH. Variables de Entorno. Configuración. Iniciando HDFS y YARN. Monitorización.

INTRODUCCIÓN Hablamos de los distintos componentes y la función que cumple cada uno. Computación distribuida. Otras tecnologías en el ecosistema Hadoop.

ALMACENANDO DATOS Almacenando datos con HDFS. Escritura y lectura. Comandos HDFS. Nodos. Replicación y recuperación. ETL. Ingestión de datos. Hbase.

PLANIFICACIÓN Y TAREAS Anatomía de un Job Run en YARN. Parámetros. Cluster resource Allocation. Colas de trabajos. Ejecutando trabajos en colas específicas. Logs.

YARN Gestión de recursos de cluster. Arquitectura. Daemons. Operación, seguridad y gobierno de datos. Fair scheduler. CPU y Memoria.

13

Trabajaremos con la distribución Hadoop más utilizada Cloudera. También profundizaremos en el

conocimiento de otras distribuciones como Hortonworks , IBM BigInsights o MapR.

Trabajaremos con Impala, Pig, Hue, Spark,..

Módulo 3 - Infraestructura

INTRODUCCIÓN Distribuciones más utilizadas. Cloudera. HortonWorks, MapR. IBM BigInsights. Diferencias, escenarios de idoneidad.

APACHE SPARK Introducción. Instalación. Lenguajes de programación. Appification, RDD. Ingesta de datos, Lambdas. Transformaciones. Acciones. Persistencia. Conversiones implícitas. Java en Spark. Instrumentación y librerías.

IMPALA & PIG Instalación de Impala y pig. Lenguajes de programación. Creando consultas con pig.

CLOUDERA Instalación y VMs. Hardware e infraestructura para un cluster. Cloudera Manager. Montar un cluster de servidor con varios nodos. Seguridad. Monitorización

HUE & OTROS CLIENTES HADOOP Clientes, propósito. Instalando y configurando Hue. Autenticación y autorización.

HDFS Profundizando en HDFS. NameNode. DataNode. Creando, recuperando y manipulando archivos. Comandos HDFS. Copiando datos a Hadoop. Toleranci a fallos.

14

Estudiaremos los distintos sistemas de almacenamiento más utilizados en proyectos Big

Data y sus implicaciones. Trabajaremos con MongoDB como motor noSQL

Módulo 4 - Almacenamiento

INTRODUCCIÓN El almacenamiento en Big Data. Problemática y soluciones. Tipos de bases de datos. noSQL vs SQL. Graph Databases. Bases de datos MPP

MONGODB Introducción e instalación. Escalabilidad. Mongo Shell. Collections, BSON, Operadores. Insert & Updates & Queries. Encontrando documentos. Indexado. Big Data & reporting.

APACHE CASSANDRA Introducción y casos de uso. Arquitectura. Instalación. Replicación y consistencia. Introducción a CQL. Write & read path. Multirow partitions. Compaction. Transacciones, Tipos complejos.

HIVE Arquitectura. Esquema. Hive Warehouse. Lenguaje Hive. HiveQL. Ingesta de datos. Bucketing, joins, distributed cache, UDTFs. Funciones analíticas.

INGESTA DE DATOS. SQOOP Y FLUME Sqoop y Flume. Ingesta de datos desde DB relacionales con Sqoop. Flume network streams. Multi-agent Flows. Sinks, Channels & Interceptors.

HBASE Arquitectura. Diseño de tablas. Relaciones. Nodos de cluster. Hfiles y regions. Scaling y compaction

15

Trabajaremos con los datos para obtener correlaciones y conclusiones que nos ayuden en la toma de decisiones. Trabajaremos con Python pero también tendremos ocasión de profundizar en R y

nos indotrduciremos en SPSS modeler y Cognos BI

Módulo 5 - Análisis

INTRODUCCIÓN La analítica de datos. Herramientas. Introducción al modelado de datos. Relaciones. Normalización. Estadística. Visualización y presentación.

INTRODUCCIÓN A R Introducción e instalación. IDEs para R. Variables, operadores. Estructuras de datos, Funciones, control de flujo. Importando datos. Paquetes. Exploración de datos con R.

ANÁLISIS DE DATOS CON PYTHON Fundamentos de Python. Instalando Python. Ejecutando Programas en Python. Estructuras de datos. Construcciones e iteraciones. Librerías ara análisis. Pandas. NumPy. SciPy. Blaze.

IBM SPSS MODELER Introducción a Data Mining. Trabajando con modeler. Recolección de datos. Entendiendo los datos. Configurando la unidad de análisis. Integrando datos. Derivando y clasificando datos. Relaciones. Modelado.

IBM COGNOS BUSINESS INTELLIGENCE Consumo de datos en Cognos BI. Creación de reportes. Espacio de trabajo. Modelos de Metadata. Framework manger. Cube designer. Extendiendo Cognos.

16

En éste módulo tendremos ocasión de profundizar más en las herramientas de análisis y proceso, con

especial acento en aquellas herramientas y técnicas que nos permiten visualizar los resultados.

Módulo 6 - Visualización

INTRODUCCIÓN La analítica de datos. Herramientas. Introducción al modelado de datos. Relaciones. Normalización. Estadística. Visualización y presentación.

VISUALIZACIÓN DE DATOS CON R Introducción e instalación. IDEs para R. Variables, operadores. Estructuras de datos, Funciones, control de flujo. Importando datos. Paquetes. Exploración de datos con R.

VISUALIZACIÓN DE DATOS CON PYTHON Fundamentos de Python. Instalando Python. Ejecutando Programas en Python. Estructuras de datos. Construcciones e iteraciones. Librerías ara análisis

PENTAHO REPORTING & DASHBOARDS Consumo de datos en Cognos BI. Creación de reportes. Espacio de trabajo. Modelos de Metadata. Framework manger. Cube designer. Extendiendo Cognos.

TABLEAU Introducción a Data Mining. Trabajando con modeler. Recolección de datos. Entendiendo los datos. Configurando la unidad de análisis. Integrando datos. Derivando y clasificando datos. Relaciones. Modelado.