big data analytics - do mapreduce ao dashboard com hadoop e pentaho

56
Big Data & Analytics - Do MapReduce ao Dashboard com Hadoop e Pentaho. Palestrante: Marcio Junior Vieira [email protected]

Upload: ambiente-livre

Post on 14-Jan-2017

2.023 views

Category:

Technology


1 download

TRANSCRIPT

Page 1: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

Big Data & Analytics - Do MapReduce ao Dashboard com Hadoop e Pentaho.

Palestrante: Marcio Junior [email protected]

Page 2: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Marcio Junior Vieira

● 15 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial.

● Trabalhando com Software Livre desde 2000 com serviços de consultoria e treinamento.

● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR.

● Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day.

● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014.● Fundador da Ambiente Livre Tecnologia.● Instrutor de Big Data - Hadoop e Pentaho

Page 3: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Ecosistema da Ambiente Livre

Page 4: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Colaborações com Eventos

Page 5: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Big Data - Muito se fala...

Page 6: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

2005 na apresentação do Papa Bento XVI

Page 7: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

 2013 na apresentação do Papa Francisco

Page 8: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Page 9: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Big Data

● É um novo conceito se consolidando.● Grande armazenamento de dados e maior

velocidade

Page 10: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Big Data

Page 11: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Os 4 V's

● Velocidade, Volume, Variedade e Valor

Page 12: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

O momento é agora

Page 13: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Onde usar Big Data ?● Sistemas de

recomendação

● Redes Sociais

Page 14: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Onde usar Big Data ?

● Analise de Risco (Crédito, Seguros , Mercado Financeiro)

● Dados Espaciais ( Clima , Imagens, Trafego, Monitoramento)

● Energia Fotovoltaica(Medições , Estudos, Resultados )

Page 15: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Cases

Page 16: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Ferramentas

Page 17: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

Software Livre

Page 18: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

Muitos das melhores e mais conhecidas ferramentas de dados disponíveis são grandes projetos de código aberto. O  mais conhecido deles é o Hadoop, o que está gerando toda uma indústria de serviços e produtos relacionados. 

Page 19: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Hadoop

● O Apache Hadoop é um projeto de software open-source escrito em Java. Escalável, confiável e com processamento distribuído.

● Filesystem Distribuído● Inspirado Originalmente pelo GFS e MapReduce da Google

( Modelo de programação MapReduce)● Utiliza-se de Hardware Comum ( Commodity cluster computing )● Framework para computação distribuída● infraestrutura confiável capaz de lidar com falhas ( hardware,

software, rede )

Page 20: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Distribuições Hadoop

● Open Source Apache

● Comercial Open Source- Cloudera- HortonWorks- MapR- AWS MapReduce

Page 21: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Ecosistema - Hadoop

Page 22: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   Fonte: http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html

Page 23: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

HDFS - Replicação

● Dados de entrada é copiado para HDFS é dividido em blocos e cada blocos de dados é replicado para várias máquinas

Page 24: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

MapReduce

● É um modelo de programação desenhado para processar grandes volumes de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes.

Page 25: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Programação Distribuída

Page 26: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

MapReduceMap Reduce

Page 27: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Java MapReduce● package org.myorg;● 2. ● 3. import java.io.IOException;● 4. import java.util.*;● 5. ● 6. import org.apache.hadoop.fs.Path;● 7. import org.apache.hadoop.conf.*;● 8. import org.apache.hadoop.io.*;● 9. import org.apache.hadoop.mapred.*;● 10. import org.apache.hadoop.util.*;● 11. ● 12. public class WordCount {● 13. ● 14. public static class Map extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable> {● 15. private final static IntWritable one = new IntWritable(1);● 16. private Text word = new Text();● 17. ● 18. public void map(LongWritable key, Text value, OutputCollector<Text, IntWritable> output, Reporter reporter) throws

IOException {

Page 28: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Business Analitycs

● É a prática interativa de exploração, metódica de dados de uma organização com ênfase na análise estatística

● Obter conhecimento e conduzir o planejamento de negócios● Em contraste, ao BI centra-se em usar um conjunto

consistente de métricas para ambas medida do planejamento de desempenho passado.

● Intimamente relacionada com a Ciência da Administração● Pode ser usado como entrada para as decisões humanas

ou tomar decisões totalmente automatizados

Page 29: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Tomada de Decisão

● 1 em cada 3 gestores tomam decisão com base em informações que não confiam ou não tem

● 56% sentem sobrecarregados com a quantidade de dados que gerenciam

● 60% acreditam que precisam melhorar captura e entender informações rapidamente.

● 83% apontam que BI & analytics fazem parte de seus planos para aumentar a competitividade

fonte : Survey KPMG.

Page 30: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

● Solução de Business Intelligence e Business Analytics Open Source.

● Community Edition● Solução completa com ETL, Reporting, Data

Mining, Analise Preditiva, OLAP, Dashbards e Big Data Analytics.

Page 31: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Pentaho● É uma plataforma abrangente para integração

de dados e Business Analytics.

Page 32: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Comunidade Brasileira

Page 33: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Comunidade Brasileira● Maior comunidade do Mundo!● Lista de Discussão com + de 1700 membros● Organiza a 5 anos o Pentaho Day Brasil● Composta por desenvolvedores, usuários , empresas e

acadêmia.● Utilizado em mais de 185 países.● +10.000 Produtos desenvolvidos sobre a plataforma Pentaho. ● + 4 milhões de Downloads● Em 2015 +- 60.000 downloads dia

Page 34: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Pentaho Orquestrando Hadoop

Page 35: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Modelo tradicional de Uso

Page 36: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Fluxo Big Data

Page 37: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Pentaho Data Integration

● Ferramenta Completa de ETL● “Programação e Fluxo Visual”● Aproximadamente 350 steps diferentes

Page 38: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Pentaho Report Designer

Page 39: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Mondrian OLAP + Saiku Analytics

Page 40: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Pentaho Data Mining

● Solução completa para Machine Learning

Page 41: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Ctools - Dashboards

● CTools – Tem um conjunto de Ferramentas para Desenvolvimento de Dashboars

Page 42: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

CDE ( Ctools )

● Editor de Dashboards

Page 43: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

CTools Dashboards

Page 44: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Page 45: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Page 46: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Exemplo Big Data em D3.js

Page 47: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Data Lake

Page 48: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

O Profissional“data scientist”

Novo profissional: Cientista de Dados

Page 49: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Competências

● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes

Page 50: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Empresa Usando Hadoop

● Amazon● Facebook● Google● IBM● Yahoo● Linkedin

● Joost● Last.fm● New York Times● PowerSet● Veoh● Twitter● Ebay

Page 51: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Tendências

Page 52: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

TendênciasCitizen Data Scientist

Page 53: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Principais desafios

● O Big Data não envolve só mudança de tecnologia, envolve adaptação de processos e treinamento relacionado à mudança de gestão e analise de dados ( MERITALK BIG DATA EXCHANGE, 2013)

● A maioria dos lideres não seba lidar com essa grande variedade e quantidade de informações, e não tem conhecimento dos benefícios que uma analise bem feita destas dados poderia trazer ao seu negocio( COMPUTERWORLD, 2012)

● Falta da cultura: a maioria das empresas não fazem um bom trabalho com as informações que já tem.

● Desafios dos Os 5 V !● Privacidade, A identidade do usuário, mesmo preservada pode ser

buscada... ( Marco Civil da Internet )

Page 54: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Recomendações

● Comece com o problema , e não com os dados

● Compartilhe dados para receber dados● Suporte gerencial e executivo● Orçamento suficiente● Melhores parceiros e fornecedores

Page 55: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Big Data

● “Big Data hoje é o que era a Linux em 1991.

● Sabemos que será algo revolucionário, mas não sabemos o quanto...”

Page 56: Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

   

Contatos

● e-mail: ● marcio @ ambientelivre.com.br ● http://twitter.com/ambientelivre● @ambientelivre● @marciojvieira● Blog

blogs.ambientelivre.com.br/marcio● Facebook/ambientelivre