big data workshop

18
BIG DATA WORKSHOP [email protected] Humberto Moura

Upload: humberto-moura

Post on 07-Jan-2017

134 views

Category:

Education


0 download

TRANSCRIPT

BIG DATAWORKSHOP

[email protected]

Humberto Moura

CONCEITOS 2

"Big Data são ativos de informação de alto volume, velocidade e variedade que exigem formas rentáveis e inovadoras de processamento de informação para maior insight e tomada de decisão.” (Gartner, 2013).

"Big Data é um termo que descreve dados variáveis, complexos, de grande volume e de alta velocidade que exigem técnicas e tecnologias avançadas para permitir a captura, armazenamento, distribuição, gerenciamento e análise da informação.” (TechAmerica , 2012)

TÓPICO 3

BIG DATA

3

Volume, Velocidade, Variedade, Veracidade, Valor

CARACTERÍSTICAS TRADICIONAIS DOS DADOS 4

Números;

Gerado por aplicações (ERP, CRM…);

Banco de Dados bem definidos;

Os atributos dos dados dificilmente mudam;

Estão dentro da empresa;

O armazenamento é centralizado.

PROCESSAMENTO TRADICIONAIS DOS DADOS 5

Pequenas distâncias entre origem e uso;

Transferências instantâneas;

Tela para banco de dados;

Banco de dados / processamento / banco de dados

Banco de dados para relatórios;

Validação dos dados na origem;

Dados resumidos e calculados.

ARQUITETURA DOS DADOS TRADICIONAL 6

Armazenamento dos dados Centralizados;

3 Camadas (Persistência, Lógica e Apresentação)

Mudanças requerem projetos de ciclo de vida completos.

DESAFIOS DOS DADOS TRADICIONAL 7

Não é possível manipular processamento de texto de forma econômica;

Não é possível manipular dados incompletos e não confiáveis;

Alto custo de armazenamento de texto (Hardware e Software);

Backup e restore consomem muito tempo;

Alto gerenciamento / custo de licenciamento;

Mudanças no banco tomam muito tempo para refazer aplicação.

CARACTERÍSTICAS APLICAÇÕES BIG DATA 8

Dados estão na faixa de Tera ou Peta Bytes

Mais do que uma origem dos dados;

Dados de texto ou mídia (áudio, vídeo, imagens…);

Carga de processamento gigantesca;

Processamento de streaming em tempo real;

Análises avançadas;

Custo de manipulação relativamente barato;

MODELO BIG DATA 9

OBTER

TRANSPORTAR

TRANSFORMAR

PERSISTIR

REPORTAR

ANALISAR

GERENCIAR

MODELO BIG DATA 10

OBTER

Arquivos (texto, cvs, json, xml…)

SGBDR (SQL, Joins, Group By…)

REST

Streaming

MODELO BIG DATA 11

Mover /copiar arquivos

SFTP

Apache Sqoop

TRANSPORTAR

MODELO BIG DATA 12

Arquivos

SGBD

HDFS

PERSISTIR

MODELO BIG DATA 13

Limpar

Filtrar

Padronizar

Enriquecer

Integrar

TRANSFORMAR

MODELO BIG DATA 14

Extrair dados da persistência

Autenticação

tempo real

gráficos

REPORTAR

MODELO BIG DATA 15

Descritiva: entender o que aconteceu;

Exploratória: Descobrir porque algo aconteceu;

Inferência: a população de uma amostra;

Preditiva: previsão do que vai acontecer;

Causal: O que acontece com uma variável se mudar outra;

Deep: Técnica avançada para grandes dados e múltiplas origens.

ANALISAR Tipos de Análise

MODELO BIG DATA 16

ANALISAR

INTRODUÇÃO AO TABLEAU 17

http://download.inep.gov.br//educacao_basica/enem/enem_por_escola/2015/Planilhas_Enem_2015_download.xlsx

Download para prática:

http://www.tableau.com/pt-br/products/desktop

OBRIGADO! 18

OBRIGADO!