Download - Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Tecnologie e Metodologie di Big Data Analytics

Giambattista Amati*, Simone Angelini*, Giorgio Gambosi•, DanielePasquini•

*Fondazione Ugo Bordoni• Università Tor Vergata

Roma, Seminario ISCOM, 2 luglio 2019

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 1 / 73

Page 2: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Sommario

1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce

2 Trasformazioni dei DatiVisualizzazione

3 Streaming & Search

4 VisualizzazioneSpam Farm

5 Machine Learning e Data Mining (Giorgio Gambosi)

6 Hadoop e Spark (Simone Angelini)

7 Analisi di Grandi Grafi (Daniele Pasquini)

Big Data Analytics

Section 1

Big Data Analytics

3 Streaming & Search4 Visualizzazione

Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)

Big Data Analytics

Cosa sono i Big Data?

VARIETÀ

Dati di diversa natura e non strutturati come testi, flussi di click, segnaliprovenienti da RFID, cellulari, sensori, transazioni commerciali di variogenere. . .

VELOCITÀ

Dati che affluiscono devono essere elaborati a ritmi sostenuti o intempo reale. La velocità non si riferisce alla crescita ma alla necessitàdi comprimere i tempi di gestione e analisi.

VOLUMETerabytes di dati e la correlazione tra dati non sono gestibili con i DBtradizionali.

Big Data Analytics

VARIETÀ

VELOCITÀ

Big Data Analytics

VARIETÀ

VELOCITÀ

Big Data Analytics

Big DataThe Forrester Wave, Q1 2013

The Forrester Wave, Q1 2013

Soluzioni software e hardware che permettano le organiz-

zazioni di scoprire, valutare e realizzare modelli predittivi anal-

izzando sorgenti informative molto grandi di dati al fine di

migliorare le proprie performance e mitigare i rischi.

Big Data Analytics

Big DataThe Forrester Wave, Q1 2013

The Forrester Wave, Q1 2013

Soluzioni software e hardware che permettano le organiz-

zazioni di scoprire, valutare e realizzare modelli predittivi anal-

izzando sorgenti informative molto grandi di dati al fine di

migliorare le proprie performance e mitigare i rischi.

Big Data Analytics

Gartner (Febbraio 2016)

By 2018, smart, governed, Hadoop-based, search-based

and visual-based data discovery will converge in a single

form of next-generation data discovery that will include self-

service data preparation and natural-language generation.

Big Data Analytics

Internet of Things (IoT)Da Terabytes a Yottabytes

Big Data Analytics Progetti ISCOM-FUB

Subsection 1

Progetti ISCOM-FUB

Il Progetto SNOOPISocial Networks: L’OsservatoriO sulle Pubbliche AmministrazionI

Monitoraggio delle piattaforme sociali:

SNOOPI ha misurato quantitativamente e qualitativamente lacapacità di presidio e di interazione delle PubblicheAmministrazioni, e rilevato i temi di interesse dei cittadini su Twitter

Per fare ciò SNOOPI si è dotato di un laboratorio conun’infrastruttura HW & SW di tipo Big Data.

Page 13: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 14: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 15: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Il Progetto BigDOT

Raffinamento della Piattaforma di Big Data Analytics

Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni

120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti

Dataset unico di estremo valore e interesse

Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)

Page 16: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Il Progetto BigDOT

Page 17: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Il Progetto BigDOT

Page 18: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Il Progetto BigDOT

Page 19: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Il Progetto BigDOT

Page 20: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Il Progetto BigDOT

Page 21: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Il Progetto BigDOT

Page 22: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Il Progetto BigDOT

Page 23: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Il Progetto BigDataDOCS

Analisi del malware sia attraverso l’analisi del malware siaacquisendo informazioni real-time in rete (Twitter)

Collection Nr Docs #Tokens Nr Occurrences Index Di-mensions

Nrindexes

CybSecISCOM-FUB 53.643.416 82.937.329 1.095.045.889 83GB 111MW-TaggedText 655.361 153.587.253 4.222.109.462 21GB 1

Table: The MW-TaggedText collection contains text of a subset of theVirusShare.com collection and occupies 30GB of malware data. TheCybSec-ISCOM-FUB collection is data collected from Twitter, withapproximately one index per day from the first day of detection on the10th November 2017.

Page 24: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Il Laboratorio ISCOM

Page 25: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Gli iniziIl Web

Web è un esempio di ipertesto, con nodi e link.

HTML nasce per trattare l’ipertesto (CERN 1980)

La prima interfaccia: “World Wide Web” (1990)

Il primo browser, MOSAIC per UNIX (1993)

Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)

W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)

Page e Brin (Stanford University) creano PageRank di Google(1996)

Google (1997)

Page 26: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Gli iniziIl Web

Google (1997)

Page 27: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Gli iniziIl Web

Google (1997)

Page 28: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Gli iniziIl Web

Google (1997)

Page 29: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Gli iniziIl Web

Google (1997)

Page 30: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Gli iniziIl Web

Google (1997)

Page 31: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Gli iniziIl Web

Google (1997)

Page 32: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Gli iniziIl Web

Google (1997)

Page 33: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

PassatoTrasporre una matrice grande e sparsa ....

1998 - Google

1999 - Systema MG (Managing Gygabytes)

2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC

2004 - Terabyte track (TREC)

2006 - Google DFS

2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.

2008 - MapReduce di Google

2011 dicembre - Hadoop su cluster di macchine.

Page 34: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

1998 - Google

2006 - Google DFS

Page 35: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

1998 - Google

2006 - Google DFS

Page 36: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

1998 - Google

2006 - Google DFS

Page 37: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

1998 - Google

2006 - Google DFS

Page 38: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

1998 - Google

2006 - Google DFS

Page 39: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

1998 - Google

2006 - Google DFS

Page 40: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

1998 - Google

2006 - Google DFS

Page 41: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

OggiScalare ma in tempo reale ....

2013 Apache Spark molto più efficiente di Hadoop

2013 Apache PySpark API di Pyton per Spark

2014 - Apache Storm trattamento dei dati real time

2014-Apache GraphX per la visualizzazione dei grafi.

2015 giugno - SparkR - R distribuito, il data mining massivo con

open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.

Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data

Page 42: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 43: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 44: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 45: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 46: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 47: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 48: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 49: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Volume

Nel 2007 Google ha elaborato 403 PB di documenti

Nel 2009 Il Regional Computer Forensic Laboratory della FBI haesaminato 3 PB di dati.

Mezzo miliardo di messaggi al giorno su Twitter (2.500 Byteciascun tweet) = 1.25 Terabyte al giorno.

Il flusso italiano filtrato da SNOOPI su Twitter è di 1.8 ML tweetal giorno.

Secondo una nostra stima si è passati da 200 tweet al minuto

(fine 2011) a 1300 tweet medi al minuto di oggi.

Page 50: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Volume

Page 51: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Volume

Page 52: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Volume

Page 53: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Volume

Page 54: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Architettura di un ecosistema Big Data: Spark & R ...

SparklyR SparkPy SparkSQL MLibSpark

StreamingGraphX

Spark Core API

R Python SQL Scala Java

YARN (Hadoop-Gestione Risorse, scheduling, monitoraggio)

HDFS (Gestione File Distribuito, repliche ...)

Page 55: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Come gestire i Big DataIl paradigma MapReduce: I Concetti Chiave

Distributed File System (DFS)

I dati hanno una chiave associata (chiave-valore)

Il modello computazionale MapReduce

Page 56: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 57: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 58: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Distributed File SystemGoogle GFS, Hadoop HDFS

Page 59: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Distributed File System (DFS)I dati vengono spezzettati, distribuiti e replicati in più file e più macchine

Si hanno cluster di rack

Ciascun rack ha 8-64 macchine collegate con uno switch a 1Gbps

I cluster sono collegati tra loro da un backbone principale a 2-8Gbps

I dati si spezzettano in chunk (∼ 128 MB), ogni chunk ospitato inmemoria da una macchina (chunk server).

Almeno 2-3 repliche di un chunk, un solo chunk al più in un rack.

Page 60: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 61: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 62: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 63: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 64: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Distributed File SystemGoogle GFS, Hadoop HDFS

Le operazioni tipiche che vengono effettuate sono due: lettura e

concatenazione (read e append)

Gli update sulle singole macchine sono rari.

Page 65: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Distributed File SystemQuante macchine?

Nel 2007 Google affermava di avere 403 PB.

Tasso di compressione degli indici 3,5%: ∼ 14PB di datiprodottiSe tutto l’indice è in memoria centrale ....

con 1.000.000 servers, 2-3 repliche... nel 2007 occorrevano più di un 500,000 macchine con almeno128 GB di RAM.

Page 66: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 67: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 68: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 69: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 70: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Big Data Analytics MapReduce

Subsection 2

MapReduce

Page 71: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

La programmazione distribuita è molto pesanteSoluzione: MapReduce

MapReduce viene incontro alle sfide della programmazione distribuita.Le 3 regole

Archivia i dati con ridondanza su nodi multipli per garantire lapersistenza e la loro disponibilità

Effettua il calcolo in prossimità dei dati per minimizzare il costodi trasferimento dei dati

Usa un modello semplice di programmazione per nasconderela complessità dell’architettura

Page 72: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 73: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 74: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Conteggio Parole

words(doc.txt)| sort| uniq -c

Map

Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave

Raggruppare per chiavi

Ordinare e Distribuire

Ridurre

Aggregare, sommare, filtrare o trasformareScrivere il risultato su file

Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema

Page 75: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Conteggio Parole

Map

Ridurre

Page 76: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Conteggio Parole

Map

Ridurre

Page 77: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Conteggio Parole

Map

Ridurre

Page 78: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Conteggio Parole

Map

Ridurre

Page 79: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Conteggio Parole

Map

Ridurre

Page 80: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Conteggio Parole

Map

Ridurre

Page 81: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Conteggio Parole

Map

Ridurre

Page 82: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Map ReduceDichiarare il numero dei Map e di Reduce, una chiave per un solo Reduce

Page 83: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Map Reduce

map(key, value)://key: document id; value: il testo del documento

for each word w in value:emit(w, 1)

reduce(key, values):// key:una parola w; value: un intero come contatore

result = 0for each count v in values:

result += vemit(w, result)

Page 84: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Map ReduceIn breve

Page 85: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Scheduling & Data flowCosa non deve fare il programmatore, ma che fa il sistema

Partizione dei dati

Scheduling dei task per l’esecuzione del programma tra le variemacchine

Ordinare per chiave i dati

Assegnare i dati (intermedi) ai nodi.

Gestire i guasti dei nodi.

Gestire la comunicazione delle macchine

Page 86: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Partizione dei dati

Page 87: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Partizione dei dati

Page 88: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Partizione dei dati

Page 89: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Partizione dei dati

Page 90: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Partizione dei dati

Page 91: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Spark

Azioni, contare o mostrare i primi elementi di un RDD o di unDataFrame

Trasformazioni generano nuovi RDD, map, filter, reduce, join,groupBy

Trasformazioni senza shuffle map, filter, select

Trasformazioni con shuffle reduce, join, groupBy

Page 92: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Spark

Page 93: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Spark

Page 94: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Spark

Page 95: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Trasformazioni dei Dati

Section 2

Page 96: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

80% of time is spent to clean and trasform the data..... 20% to comunicate

1 Import the data, json, sql, csv, Hive etc.2 Preliminary analysis of the data & cleaning missing values,

key-values data (transform into the third form of Codd),correlations etc. (tidy data).

3 Trasform the data. A pipeline of processes: mutate, join,summarize, group_by, select, filter, ecc.

4 Automatic Completion of missing values.Regression/Classification

5 Modelling (eg. MLlib or H2O)6 Visualization of data7 Communication of results

Page 97: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 98: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 99: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 100: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 101: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 102: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 103: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 104: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Modelling & Visualization, Data Science with R

Why R?

open source

IDE Rstudio

Rmarkdown

Small e Big Data (seamlessly): sparklyr is a library of R.

Easy interface to Spark

Powerful visualization tools

Page 105: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Why R?

open source

IDE Rstudio

Rmarkdown

Page 106: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Why R?

open source

IDE Rstudio

Rmarkdown

Page 107: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Why R?

open source

IDE Rstudio

Rmarkdown

Page 108: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Why R?

open source

IDE Rstudio

Rmarkdown

Page 109: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Why R?

open source

IDE Rstudio

Rmarkdown

Page 110: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

R e sparklyrTidy data

Page 111: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Il ciclo di vita dei dati

package tidyverse (dplyr, small data)

package sparklyr (big data)

Page 112: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Il ciclo di vita dei dati

package tidyverse (dplyr, small data)

package sparklyr (big data)

Page 113: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Trasformazioni dei Dati Visualizzazione

Subsection 1

Visualizzazione

Page 114: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

VisualizzazioneCome risulta il database prima delle trasformazioni di pulizia e di completamento

dei dati

Page 115: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

VisualizzazioneDopo la pulizia e il completamento dei dati

Page 116: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Joining data & VisualizzazioneSource http://datiopen.istat.it/datasetCOM.php

https://dait.interno.gov.it/elezioni/open-data/dati-elezioni-politiche-4-marzo-2018

Page 117: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 118: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 119: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Page 120: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Streaming & Search

Section 3

Streaming & Search

Page 121: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Streaming & Search

Architettura

Page 122: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Streaming & Search

Storm processing

Page 123: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Streaming & Search

Tweet Processing

Page 124: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Streaming & Search

Counting & Estimating

Page 125: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Streaming & Search

MashupRedis

Page 126: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Streaming & Search

Efficient Retrieval by Key-valuesMongoDB

Page 127: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Streaming & Search

Trends

Page 128: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Streaming & Search

Real TimeMost active accounts

Page 129: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Streaming & Search

Topic Search

Page 130: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Streaming & Search

Authority Entity Search

Page 131: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Streaming & Search

Author Search

Page 132: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Streaming & Search

Trends

Page 133: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Visualizzazione

Section 4

Visualizzazione

Page 134: Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Visualizzazione

Visualizzazione di Grafi

Existing Software are very slow

Existing Software manage few nodes and edges. We are able to

manage 500,000 nodes ( using SVG to 1ML).

Difficult to personalize.

Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).

Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.