tecnologie e metodologie di big data analytics · big data analytics section 1 big data analytics 1...

Post on 29-May-2020

36 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Tecnologie e Metodologie di Big Data Analytics

Giambattista Amati*, Simone Angelini*, Giorgio Gambosi•, DanielePasquini•

*Fondazione Ugo Bordoni• Università Tor Vergata

Roma, Seminario ISCOM, 2 luglio 2019

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 1 / 73

Sommario

1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce

2 Trasformazioni dei DatiVisualizzazione

3 Streaming & Search

4 VisualizzazioneSpam Farm

5 Machine Learning e Data Mining (Giorgio Gambosi)

6 Hadoop e Spark (Simone Angelini)

7 Analisi di Grandi Grafi (Daniele Pasquini)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 2 / 73

Big Data Analytics

Section 1

Big Data Analytics

1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce

2 Trasformazioni dei DatiVisualizzazione

3 Streaming & Search4 Visualizzazione

Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 3 / 73

Big Data Analytics

Cosa sono i Big Data?

VARIETÀ

Dati di diversa natura e non strutturati come testi, flussi di click, segnaliprovenienti da RFID, cellulari, sensori, transazioni commerciali di variogenere. . .

VELOCITÀ

Dati che affluiscono devono essere elaborati a ritmi sostenuti o intempo reale. La velocità non si riferisce alla crescita ma alla necessitàdi comprimere i tempi di gestione e analisi.

VOLUMETerabytes di dati e la correlazione tra dati non sono gestibili con i DBtradizionali.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 4 / 73

Big Data Analytics

Cosa sono i Big Data?

VARIETÀ

Dati di diversa natura e non strutturati come testi, flussi di click, segnaliprovenienti da RFID, cellulari, sensori, transazioni commerciali di variogenere. . .

VELOCITÀ

Dati che affluiscono devono essere elaborati a ritmi sostenuti o intempo reale. La velocità non si riferisce alla crescita ma alla necessitàdi comprimere i tempi di gestione e analisi.

VOLUMETerabytes di dati e la correlazione tra dati non sono gestibili con i DBtradizionali.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 4 / 73

Big Data Analytics

Cosa sono i Big Data?

VARIETÀ

Dati di diversa natura e non strutturati come testi, flussi di click, segnaliprovenienti da RFID, cellulari, sensori, transazioni commerciali di variogenere. . .

VELOCITÀ

Dati che affluiscono devono essere elaborati a ritmi sostenuti o intempo reale. La velocità non si riferisce alla crescita ma alla necessitàdi comprimere i tempi di gestione e analisi.

VOLUMETerabytes di dati e la correlazione tra dati non sono gestibili con i DBtradizionali.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 4 / 73

Big Data Analytics

Big DataThe Forrester Wave, Q1 2013

The Forrester Wave, Q1 2013

Soluzioni software e hardware che permettano le organiz-

zazioni di scoprire, valutare e realizzare modelli predittivi anal-

izzando sorgenti informative molto grandi di dati al fine di

migliorare le proprie performance e mitigare i rischi.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 5 / 73

Big Data Analytics

Big DataThe Forrester Wave, Q1 2013

The Forrester Wave, Q1 2013

Soluzioni software e hardware che permettano le organiz-

zazioni di scoprire, valutare e realizzare modelli predittivi anal-

izzando sorgenti informative molto grandi di dati al fine di

migliorare le proprie performance e mitigare i rischi.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 5 / 73

Big Data Analytics

Gartner (Febbraio 2016)

By 2018, smart, governed, Hadoop-based, search-based

and visual-based data discovery will converge in a single

form of next-generation data discovery that will include self-

service data preparation and natural-language generation.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 6 / 73

Big Data Analytics

Internet of Things (IoT)Da Terabytes a Yottabytes

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 7 / 73

Big Data Analytics Progetti ISCOM-FUB

Subsection 1

Progetti ISCOM-FUB

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 8 / 73

Big Data Analytics Progetti ISCOM-FUB

Il Progetto SNOOPISocial Networks: L’OsservatoriO sulle Pubbliche AmministrazionI

Monitoraggio delle piattaforme sociali:

SNOOPI ha misurato quantitativamente e qualitativamente lacapacità di presidio e di interazione delle PubblicheAmministrazioni, e rilevato i temi di interesse dei cittadini su Twitter

Per fare ciò SNOOPI si è dotato di un laboratorio conun’infrastruttura HW & SW di tipo Big Data.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 9 / 73

Big Data Analytics Progetti ISCOM-FUB

Il Progetto SNOOPISocial Networks: L’OsservatoriO sulle Pubbliche AmministrazionI

Monitoraggio delle piattaforme sociali:

SNOOPI ha misurato quantitativamente e qualitativamente lacapacità di presidio e di interazione delle PubblicheAmministrazioni, e rilevato i temi di interesse dei cittadini su Twitter

Per fare ciò SNOOPI si è dotato di un laboratorio conun’infrastruttura HW & SW di tipo Big Data.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 9 / 73

Big Data Analytics Progetti ISCOM-FUB

Il Progetto SNOOPISocial Networks: L’OsservatoriO sulle Pubbliche AmministrazionI

Monitoraggio delle piattaforme sociali:

SNOOPI ha misurato quantitativamente e qualitativamente lacapacità di presidio e di interazione delle PubblicheAmministrazioni, e rilevato i temi di interesse dei cittadini su Twitter

Per fare ciò SNOOPI si è dotato di un laboratorio conun’infrastruttura HW & SW di tipo Big Data.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 9 / 73

Big Data Analytics Progetti ISCOM-FUB

Il Progetto BigDOT

Raffinamento della Piattaforma di Big Data Analytics

Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni

120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti

Dataset unico di estremo valore e interesse

Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73

Big Data Analytics Progetti ISCOM-FUB

Il Progetto BigDOT

Raffinamento della Piattaforma di Big Data Analytics

Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni

120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti

Dataset unico di estremo valore e interesse

Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73

Big Data Analytics Progetti ISCOM-FUB

Il Progetto BigDOT

Raffinamento della Piattaforma di Big Data Analytics

Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni

120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti

Dataset unico di estremo valore e interesse

Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73

Big Data Analytics Progetti ISCOM-FUB

Il Progetto BigDOT

Raffinamento della Piattaforma di Big Data Analytics

Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni

120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti

Dataset unico di estremo valore e interesse

Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73

Big Data Analytics Progetti ISCOM-FUB

Il Progetto BigDOT

Raffinamento della Piattaforma di Big Data Analytics

Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni

120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti

Dataset unico di estremo valore e interesse

Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73

Big Data Analytics Progetti ISCOM-FUB

Il Progetto BigDOT

Raffinamento della Piattaforma di Big Data Analytics

Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni

120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti

Dataset unico di estremo valore e interesse

Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73

Big Data Analytics Progetti ISCOM-FUB

Il Progetto BigDOT

Raffinamento della Piattaforma di Big Data Analytics

Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni

120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti

Dataset unico di estremo valore e interesse

Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73

Big Data Analytics Progetti ISCOM-FUB

Il Progetto BigDOT

Raffinamento della Piattaforma di Big Data Analytics

Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni

120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti

Dataset unico di estremo valore e interesse

Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73

Big Data Analytics Progetti ISCOM-FUB

Il Progetto BigDataDOCS

Analisi del malware sia attraverso l’analisi del malware siaacquisendo informazioni real-time in rete (Twitter)

Collection Nr Docs #Tokens Nr Occurrences Index Di-mensions

Nrindexes

CybSecISCOM-FUB 53.643.416 82.937.329 1.095.045.889 83GB 111MW-TaggedText 655.361 153.587.253 4.222.109.462 21GB 1

Table: The MW-TaggedText collection contains text of a subset of theVirusShare.com collection and occupies 30GB of malware data. TheCybSec-ISCOM-FUB collection is data collected from Twitter, withapproximately one index per day from the first day of detection on the10th November 2017.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 11 / 73

Big Data Analytics Progetti ISCOM-FUB

Il Laboratorio ISCOM

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 12 / 73

Big Data Analytics Progetti ISCOM-FUB

Gli iniziIl Web

Web è un esempio di ipertesto, con nodi e link.

HTML nasce per trattare l’ipertesto (CERN 1980)

La prima interfaccia: “World Wide Web” (1990)

Il primo browser, MOSAIC per UNIX (1993)

Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)

W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)

Page e Brin (Stanford University) creano PageRank di Google(1996)

Google (1997)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73

Big Data Analytics Progetti ISCOM-FUB

Gli iniziIl Web

Web è un esempio di ipertesto, con nodi e link.

HTML nasce per trattare l’ipertesto (CERN 1980)

La prima interfaccia: “World Wide Web” (1990)

Il primo browser, MOSAIC per UNIX (1993)

Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)

W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)

Page e Brin (Stanford University) creano PageRank di Google(1996)

Google (1997)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73

Big Data Analytics Progetti ISCOM-FUB

Gli iniziIl Web

Web è un esempio di ipertesto, con nodi e link.

HTML nasce per trattare l’ipertesto (CERN 1980)

La prima interfaccia: “World Wide Web” (1990)

Il primo browser, MOSAIC per UNIX (1993)

Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)

W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)

Page e Brin (Stanford University) creano PageRank di Google(1996)

Google (1997)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73

Big Data Analytics Progetti ISCOM-FUB

Gli iniziIl Web

Web è un esempio di ipertesto, con nodi e link.

HTML nasce per trattare l’ipertesto (CERN 1980)

La prima interfaccia: “World Wide Web” (1990)

Il primo browser, MOSAIC per UNIX (1993)

Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)

W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)

Page e Brin (Stanford University) creano PageRank di Google(1996)

Google (1997)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73

Big Data Analytics Progetti ISCOM-FUB

Gli iniziIl Web

Web è un esempio di ipertesto, con nodi e link.

HTML nasce per trattare l’ipertesto (CERN 1980)

La prima interfaccia: “World Wide Web” (1990)

Il primo browser, MOSAIC per UNIX (1993)

Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)

W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)

Page e Brin (Stanford University) creano PageRank di Google(1996)

Google (1997)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73

Big Data Analytics Progetti ISCOM-FUB

Gli iniziIl Web

Web è un esempio di ipertesto, con nodi e link.

HTML nasce per trattare l’ipertesto (CERN 1980)

La prima interfaccia: “World Wide Web” (1990)

Il primo browser, MOSAIC per UNIX (1993)

Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)

W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)

Page e Brin (Stanford University) creano PageRank di Google(1996)

Google (1997)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73

Big Data Analytics Progetti ISCOM-FUB

Gli iniziIl Web

Web è un esempio di ipertesto, con nodi e link.

HTML nasce per trattare l’ipertesto (CERN 1980)

La prima interfaccia: “World Wide Web” (1990)

Il primo browser, MOSAIC per UNIX (1993)

Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)

W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)

Page e Brin (Stanford University) creano PageRank di Google(1996)

Google (1997)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73

Big Data Analytics Progetti ISCOM-FUB

Gli iniziIl Web

Web è un esempio di ipertesto, con nodi e link.

HTML nasce per trattare l’ipertesto (CERN 1980)

La prima interfaccia: “World Wide Web” (1990)

Il primo browser, MOSAIC per UNIX (1993)

Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)

W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)

Page e Brin (Stanford University) creano PageRank di Google(1996)

Google (1997)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73

Big Data Analytics Progetti ISCOM-FUB

PassatoTrasporre una matrice grande e sparsa ....

1998 - Google

1999 - Systema MG (Managing Gygabytes)

2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC

2004 - Terabyte track (TREC)

2006 - Google DFS

2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.

2008 - MapReduce di Google

2011 dicembre - Hadoop su cluster di macchine.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73

Big Data Analytics Progetti ISCOM-FUB

PassatoTrasporre una matrice grande e sparsa ....

1998 - Google

1999 - Systema MG (Managing Gygabytes)

2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC

2004 - Terabyte track (TREC)

2006 - Google DFS

2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.

2008 - MapReduce di Google

2011 dicembre - Hadoop su cluster di macchine.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73

Big Data Analytics Progetti ISCOM-FUB

PassatoTrasporre una matrice grande e sparsa ....

1998 - Google

1999 - Systema MG (Managing Gygabytes)

2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC

2004 - Terabyte track (TREC)

2006 - Google DFS

2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.

2008 - MapReduce di Google

2011 dicembre - Hadoop su cluster di macchine.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73

Big Data Analytics Progetti ISCOM-FUB

PassatoTrasporre una matrice grande e sparsa ....

1998 - Google

1999 - Systema MG (Managing Gygabytes)

2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC

2004 - Terabyte track (TREC)

2006 - Google DFS

2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.

2008 - MapReduce di Google

2011 dicembre - Hadoop su cluster di macchine.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73

Big Data Analytics Progetti ISCOM-FUB

PassatoTrasporre una matrice grande e sparsa ....

1998 - Google

1999 - Systema MG (Managing Gygabytes)

2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC

2004 - Terabyte track (TREC)

2006 - Google DFS

2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.

2008 - MapReduce di Google

2011 dicembre - Hadoop su cluster di macchine.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73

Big Data Analytics Progetti ISCOM-FUB

PassatoTrasporre una matrice grande e sparsa ....

1998 - Google

1999 - Systema MG (Managing Gygabytes)

2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC

2004 - Terabyte track (TREC)

2006 - Google DFS

2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.

2008 - MapReduce di Google

2011 dicembre - Hadoop su cluster di macchine.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73

Big Data Analytics Progetti ISCOM-FUB

PassatoTrasporre una matrice grande e sparsa ....

1998 - Google

1999 - Systema MG (Managing Gygabytes)

2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC

2004 - Terabyte track (TREC)

2006 - Google DFS

2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.

2008 - MapReduce di Google

2011 dicembre - Hadoop su cluster di macchine.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73

Big Data Analytics Progetti ISCOM-FUB

PassatoTrasporre una matrice grande e sparsa ....

1998 - Google

1999 - Systema MG (Managing Gygabytes)

2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC

2004 - Terabyte track (TREC)

2006 - Google DFS

2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.

2008 - MapReduce di Google

2011 dicembre - Hadoop su cluster di macchine.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73

Big Data Analytics Progetti ISCOM-FUB

OggiScalare ma in tempo reale ....

2013 Apache Spark molto più efficiente di Hadoop

2013 Apache PySpark API di Pyton per Spark

2014 - Apache Storm trattamento dei dati real time

2014-Apache GraphX per la visualizzazione dei grafi.

2015 giugno - SparkR - R distribuito, il data mining massivo con

open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.

Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73

Big Data Analytics Progetti ISCOM-FUB

OggiScalare ma in tempo reale ....

2013 Apache Spark molto più efficiente di Hadoop

2013 Apache PySpark API di Pyton per Spark

2014 - Apache Storm trattamento dei dati real time

2014-Apache GraphX per la visualizzazione dei grafi.

2015 giugno - SparkR - R distribuito, il data mining massivo con

open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.

Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73

Big Data Analytics Progetti ISCOM-FUB

OggiScalare ma in tempo reale ....

2013 Apache Spark molto più efficiente di Hadoop

2013 Apache PySpark API di Pyton per Spark

2014 - Apache Storm trattamento dei dati real time

2014-Apache GraphX per la visualizzazione dei grafi.

2015 giugno - SparkR - R distribuito, il data mining massivo con

open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.

Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73

Big Data Analytics Progetti ISCOM-FUB

OggiScalare ma in tempo reale ....

2013 Apache Spark molto più efficiente di Hadoop

2013 Apache PySpark API di Pyton per Spark

2014 - Apache Storm trattamento dei dati real time

2014-Apache GraphX per la visualizzazione dei grafi.

2015 giugno - SparkR - R distribuito, il data mining massivo con

open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.

Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73

Big Data Analytics Progetti ISCOM-FUB

OggiScalare ma in tempo reale ....

2013 Apache Spark molto più efficiente di Hadoop

2013 Apache PySpark API di Pyton per Spark

2014 - Apache Storm trattamento dei dati real time

2014-Apache GraphX per la visualizzazione dei grafi.

2015 giugno - SparkR - R distribuito, il data mining massivo con

open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.

Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73

Big Data Analytics Progetti ISCOM-FUB

OggiScalare ma in tempo reale ....

2013 Apache Spark molto più efficiente di Hadoop

2013 Apache PySpark API di Pyton per Spark

2014 - Apache Storm trattamento dei dati real time

2014-Apache GraphX per la visualizzazione dei grafi.

2015 giugno - SparkR - R distribuito, il data mining massivo con

open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.

Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73

Big Data Analytics Progetti ISCOM-FUB

OggiScalare ma in tempo reale ....

2013 Apache Spark molto più efficiente di Hadoop

2013 Apache PySpark API di Pyton per Spark

2014 - Apache Storm trattamento dei dati real time

2014-Apache GraphX per la visualizzazione dei grafi.

2015 giugno - SparkR - R distribuito, il data mining massivo con

open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.

Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73

Big Data Analytics Progetti ISCOM-FUB

OggiScalare ma in tempo reale ....

2013 Apache Spark molto più efficiente di Hadoop

2013 Apache PySpark API di Pyton per Spark

2014 - Apache Storm trattamento dei dati real time

2014-Apache GraphX per la visualizzazione dei grafi.

2015 giugno - SparkR - R distribuito, il data mining massivo con

open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.

Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73

Big Data Analytics Progetti ISCOM-FUB

Volume

Nel 2007 Google ha elaborato 403 PB di documenti

Nel 2009 Il Regional Computer Forensic Laboratory della FBI haesaminato 3 PB di dati.

Mezzo miliardo di messaggi al giorno su Twitter (2.500 Byteciascun tweet) = 1.25 Terabyte al giorno.

Il flusso italiano filtrato da SNOOPI su Twitter è di 1.8 ML tweetal giorno.

Secondo una nostra stima si è passati da 200 tweet al minuto

(fine 2011) a 1300 tweet medi al minuto di oggi.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 16 / 73

Big Data Analytics Progetti ISCOM-FUB

Volume

Nel 2007 Google ha elaborato 403 PB di documenti

Nel 2009 Il Regional Computer Forensic Laboratory della FBI haesaminato 3 PB di dati.

Mezzo miliardo di messaggi al giorno su Twitter (2.500 Byteciascun tweet) = 1.25 Terabyte al giorno.

Il flusso italiano filtrato da SNOOPI su Twitter è di 1.8 ML tweetal giorno.

Secondo una nostra stima si è passati da 200 tweet al minuto

(fine 2011) a 1300 tweet medi al minuto di oggi.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 16 / 73

Big Data Analytics Progetti ISCOM-FUB

Volume

Nel 2007 Google ha elaborato 403 PB di documenti

Nel 2009 Il Regional Computer Forensic Laboratory della FBI haesaminato 3 PB di dati.

Mezzo miliardo di messaggi al giorno su Twitter (2.500 Byteciascun tweet) = 1.25 Terabyte al giorno.

Il flusso italiano filtrato da SNOOPI su Twitter è di 1.8 ML tweetal giorno.

Secondo una nostra stima si è passati da 200 tweet al minuto

(fine 2011) a 1300 tweet medi al minuto di oggi.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 16 / 73

Big Data Analytics Progetti ISCOM-FUB

Volume

Nel 2007 Google ha elaborato 403 PB di documenti

Nel 2009 Il Regional Computer Forensic Laboratory della FBI haesaminato 3 PB di dati.

Mezzo miliardo di messaggi al giorno su Twitter (2.500 Byteciascun tweet) = 1.25 Terabyte al giorno.

Il flusso italiano filtrato da SNOOPI su Twitter è di 1.8 ML tweetal giorno.

Secondo una nostra stima si è passati da 200 tweet al minuto

(fine 2011) a 1300 tweet medi al minuto di oggi.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 16 / 73

Big Data Analytics Progetti ISCOM-FUB

Volume

Nel 2007 Google ha elaborato 403 PB di documenti

Nel 2009 Il Regional Computer Forensic Laboratory della FBI haesaminato 3 PB di dati.

Mezzo miliardo di messaggi al giorno su Twitter (2.500 Byteciascun tweet) = 1.25 Terabyte al giorno.

Il flusso italiano filtrato da SNOOPI su Twitter è di 1.8 ML tweetal giorno.

Secondo una nostra stima si è passati da 200 tweet al minuto

(fine 2011) a 1300 tweet medi al minuto di oggi.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 16 / 73

Big Data Analytics Progetti ISCOM-FUB

Architettura di un ecosistema Big Data: Spark & R ...

SparklyR SparkPy SparkSQL MLibSpark

StreamingGraphX

Spark Core API

R Python SQL Scala Java

YARN (Hadoop-Gestione Risorse, scheduling, monitoraggio)

HDFS (Gestione File Distribuito, repliche ...)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 17 / 73

Big Data Analytics Progetti ISCOM-FUB

Come gestire i Big DataIl paradigma MapReduce: I Concetti Chiave

Distributed File System (DFS)

I dati hanno una chiave associata (chiave-valore)

Il modello computazionale MapReduce

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 18 / 73

Big Data Analytics Progetti ISCOM-FUB

Come gestire i Big DataIl paradigma MapReduce: I Concetti Chiave

Distributed File System (DFS)

I dati hanno una chiave associata (chiave-valore)

Il modello computazionale MapReduce

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 18 / 73

Big Data Analytics Progetti ISCOM-FUB

Come gestire i Big DataIl paradigma MapReduce: I Concetti Chiave

Distributed File System (DFS)

I dati hanno una chiave associata (chiave-valore)

Il modello computazionale MapReduce

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 18 / 73

Big Data Analytics Progetti ISCOM-FUB

Distributed File SystemGoogle GFS, Hadoop HDFS

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 19 / 73

Big Data Analytics Progetti ISCOM-FUB

Distributed File System (DFS)I dati vengono spezzettati, distribuiti e replicati in più file e più macchine

Si hanno cluster di rack

Ciascun rack ha 8-64 macchine collegate con uno switch a 1Gbps

I cluster sono collegati tra loro da un backbone principale a 2-8Gbps

I dati si spezzettano in chunk (∼ 128 MB), ogni chunk ospitato inmemoria da una macchina (chunk server).

Almeno 2-3 repliche di un chunk, un solo chunk al più in un rack.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 20 / 73

Big Data Analytics Progetti ISCOM-FUB

Distributed File System (DFS)I dati vengono spezzettati, distribuiti e replicati in più file e più macchine

Si hanno cluster di rack

Ciascun rack ha 8-64 macchine collegate con uno switch a 1Gbps

I cluster sono collegati tra loro da un backbone principale a 2-8Gbps

I dati si spezzettano in chunk (∼ 128 MB), ogni chunk ospitato inmemoria da una macchina (chunk server).

Almeno 2-3 repliche di un chunk, un solo chunk al più in un rack.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 20 / 73

Big Data Analytics Progetti ISCOM-FUB

Distributed File System (DFS)I dati vengono spezzettati, distribuiti e replicati in più file e più macchine

Si hanno cluster di rack

Ciascun rack ha 8-64 macchine collegate con uno switch a 1Gbps

I cluster sono collegati tra loro da un backbone principale a 2-8Gbps

I dati si spezzettano in chunk (∼ 128 MB), ogni chunk ospitato inmemoria da una macchina (chunk server).

Almeno 2-3 repliche di un chunk, un solo chunk al più in un rack.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 20 / 73

Big Data Analytics Progetti ISCOM-FUB

Distributed File System (DFS)I dati vengono spezzettati, distribuiti e replicati in più file e più macchine

Si hanno cluster di rack

Ciascun rack ha 8-64 macchine collegate con uno switch a 1Gbps

I cluster sono collegati tra loro da un backbone principale a 2-8Gbps

I dati si spezzettano in chunk (∼ 128 MB), ogni chunk ospitato inmemoria da una macchina (chunk server).

Almeno 2-3 repliche di un chunk, un solo chunk al più in un rack.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 20 / 73

Big Data Analytics Progetti ISCOM-FUB

Distributed File System (DFS)I dati vengono spezzettati, distribuiti e replicati in più file e più macchine

Si hanno cluster di rack

Ciascun rack ha 8-64 macchine collegate con uno switch a 1Gbps

I cluster sono collegati tra loro da un backbone principale a 2-8Gbps

I dati si spezzettano in chunk (∼ 128 MB), ogni chunk ospitato inmemoria da una macchina (chunk server).

Almeno 2-3 repliche di un chunk, un solo chunk al più in un rack.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 20 / 73

Big Data Analytics Progetti ISCOM-FUB

Distributed File SystemGoogle GFS, Hadoop HDFS

Le operazioni tipiche che vengono effettuate sono due: lettura e

concatenazione (read e append)

Gli update sulle singole macchine sono rari.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 21 / 73

Big Data Analytics Progetti ISCOM-FUB

Distributed File SystemQuante macchine?

Nel 2007 Google affermava di avere 403 PB.

Tasso di compressione degli indici 3,5%: ∼ 14PB di datiprodottiSe tutto l’indice è in memoria centrale ....

con 1.000.000 servers, 2-3 repliche... nel 2007 occorrevano più di un 500,000 macchine con almeno128 GB di RAM.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 22 / 73

Big Data Analytics Progetti ISCOM-FUB

Distributed File SystemQuante macchine?

Nel 2007 Google affermava di avere 403 PB.

Tasso di compressione degli indici 3,5%: ∼ 14PB di datiprodottiSe tutto l’indice è in memoria centrale ....

con 1.000.000 servers, 2-3 repliche... nel 2007 occorrevano più di un 500,000 macchine con almeno128 GB di RAM.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 22 / 73

Big Data Analytics Progetti ISCOM-FUB

Distributed File SystemQuante macchine?

Nel 2007 Google affermava di avere 403 PB.

Tasso di compressione degli indici 3,5%: ∼ 14PB di datiprodottiSe tutto l’indice è in memoria centrale ....

con 1.000.000 servers, 2-3 repliche... nel 2007 occorrevano più di un 500,000 macchine con almeno128 GB di RAM.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 22 / 73

Big Data Analytics Progetti ISCOM-FUB

Distributed File SystemQuante macchine?

Nel 2007 Google affermava di avere 403 PB.

Tasso di compressione degli indici 3,5%: ∼ 14PB di datiprodottiSe tutto l’indice è in memoria centrale ....

con 1.000.000 servers, 2-3 repliche... nel 2007 occorrevano più di un 500,000 macchine con almeno128 GB di RAM.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 22 / 73

Big Data Analytics Progetti ISCOM-FUB

Distributed File SystemQuante macchine?

Nel 2007 Google affermava di avere 403 PB.

Tasso di compressione degli indici 3,5%: ∼ 14PB di datiprodottiSe tutto l’indice è in memoria centrale ....

con 1.000.000 servers, 2-3 repliche... nel 2007 occorrevano più di un 500,000 macchine con almeno128 GB di RAM.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 22 / 73

Big Data Analytics MapReduce

Subsection 2

MapReduce

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 23 / 73

Big Data Analytics MapReduce

La programmazione distribuita è molto pesanteSoluzione: MapReduce

MapReduce viene incontro alle sfide della programmazione distribuita.Le 3 regole

Archivia i dati con ridondanza su nodi multipli per garantire lapersistenza e la loro disponibilità

Effettua il calcolo in prossimità dei dati per minimizzare il costodi trasferimento dei dati

Usa un modello semplice di programmazione per nasconderela complessità dell’architettura

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 24 / 73

Big Data Analytics MapReduce

La programmazione distribuita è molto pesanteSoluzione: MapReduce

MapReduce viene incontro alle sfide della programmazione distribuita.Le 3 regole

Archivia i dati con ridondanza su nodi multipli per garantire lapersistenza e la loro disponibilità

Effettua il calcolo in prossimità dei dati per minimizzare il costodi trasferimento dei dati

Usa un modello semplice di programmazione per nasconderela complessità dell’architettura

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 24 / 73

Big Data Analytics MapReduce

La programmazione distribuita è molto pesanteSoluzione: MapReduce

MapReduce viene incontro alle sfide della programmazione distribuita.Le 3 regole

Archivia i dati con ridondanza su nodi multipli per garantire lapersistenza e la loro disponibilità

Effettua il calcolo in prossimità dei dati per minimizzare il costodi trasferimento dei dati

Usa un modello semplice di programmazione per nasconderela complessità dell’architettura

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 24 / 73

Big Data Analytics MapReduce

Conteggio Parole

words(doc.txt)| sort| uniq -c

Map

Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave

Raggruppare per chiavi

Ordinare e Distribuire

Ridurre

Aggregare, sommare, filtrare o trasformareScrivere il risultato su file

Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 25 / 73

Big Data Analytics MapReduce

Conteggio Parole

words(doc.txt)| sort| uniq -c

Map

Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave

Raggruppare per chiavi

Ordinare e Distribuire

Ridurre

Aggregare, sommare, filtrare o trasformareScrivere il risultato su file

Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 25 / 73

Big Data Analytics MapReduce

Conteggio Parole

words(doc.txt)| sort| uniq -c

Map

Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave

Raggruppare per chiavi

Ordinare e Distribuire

Ridurre

Aggregare, sommare, filtrare o trasformareScrivere il risultato su file

Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 25 / 73

Big Data Analytics MapReduce

Conteggio Parole

words(doc.txt)| sort| uniq -c

Map

Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave

Raggruppare per chiavi

Ordinare e Distribuire

Ridurre

Aggregare, sommare, filtrare o trasformareScrivere il risultato su file

Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 25 / 73

Big Data Analytics MapReduce

Conteggio Parole

words(doc.txt)| sort| uniq -c

Map

Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave

Raggruppare per chiavi

Ordinare e Distribuire

Ridurre

Aggregare, sommare, filtrare o trasformareScrivere il risultato su file

Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 25 / 73

Big Data Analytics MapReduce

Conteggio Parole

words(doc.txt)| sort| uniq -c

Map

Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave

Raggruppare per chiavi

Ordinare e Distribuire

Ridurre

Aggregare, sommare, filtrare o trasformareScrivere il risultato su file

Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 25 / 73

Big Data Analytics MapReduce

Conteggio Parole

words(doc.txt)| sort| uniq -c

Map

Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave

Raggruppare per chiavi

Ordinare e Distribuire

Ridurre

Aggregare, sommare, filtrare o trasformareScrivere il risultato su file

Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 25 / 73

Big Data Analytics MapReduce

Conteggio Parole

words(doc.txt)| sort| uniq -c

Map

Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave

Raggruppare per chiavi

Ordinare e Distribuire

Ridurre

Aggregare, sommare, filtrare o trasformareScrivere il risultato su file

Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 25 / 73

Big Data Analytics MapReduce

Map ReduceDichiarare il numero dei Map e di Reduce, una chiave per un solo Reduce

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 26 / 73

Big Data Analytics MapReduce

Map Reduce

map(key, value)://key: document id; value: il testo del documento

for each word w in value:emit(w, 1)

reduce(key, values):// key:una parola w; value: un intero come contatore

result = 0for each count v in values:

result += vemit(w, result)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 27 / 73

Big Data Analytics MapReduce

Map ReduceIn breve

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 28 / 73

Big Data Analytics MapReduce

Scheduling & Data flowCosa non deve fare il programmatore, ma che fa il sistema

Partizione dei dati

Scheduling dei task per l’esecuzione del programma tra le variemacchine

Ordinare per chiave i dati

Assegnare i dati (intermedi) ai nodi.

Gestire i guasti dei nodi.

Gestire la comunicazione delle macchine

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 29 / 73

Big Data Analytics MapReduce

Scheduling & Data flowCosa non deve fare il programmatore, ma che fa il sistema

Partizione dei dati

Scheduling dei task per l’esecuzione del programma tra le variemacchine

Ordinare per chiave i dati

Assegnare i dati (intermedi) ai nodi.

Gestire i guasti dei nodi.

Gestire la comunicazione delle macchine

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 29 / 73

Big Data Analytics MapReduce

Scheduling & Data flowCosa non deve fare il programmatore, ma che fa il sistema

Partizione dei dati

Scheduling dei task per l’esecuzione del programma tra le variemacchine

Ordinare per chiave i dati

Assegnare i dati (intermedi) ai nodi.

Gestire i guasti dei nodi.

Gestire la comunicazione delle macchine

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 29 / 73

Big Data Analytics MapReduce

Scheduling & Data flowCosa non deve fare il programmatore, ma che fa il sistema

Partizione dei dati

Scheduling dei task per l’esecuzione del programma tra le variemacchine

Ordinare per chiave i dati

Assegnare i dati (intermedi) ai nodi.

Gestire i guasti dei nodi.

Gestire la comunicazione delle macchine

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 29 / 73

Big Data Analytics MapReduce

Scheduling & Data flowCosa non deve fare il programmatore, ma che fa il sistema

Partizione dei dati

Scheduling dei task per l’esecuzione del programma tra le variemacchine

Ordinare per chiave i dati

Assegnare i dati (intermedi) ai nodi.

Gestire i guasti dei nodi.

Gestire la comunicazione delle macchine

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 29 / 73

Big Data Analytics MapReduce

Scheduling & Data flowCosa non deve fare il programmatore, ma che fa il sistema

Partizione dei dati

Scheduling dei task per l’esecuzione del programma tra le variemacchine

Ordinare per chiave i dati

Assegnare i dati (intermedi) ai nodi.

Gestire i guasti dei nodi.

Gestire la comunicazione delle macchine

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 29 / 73

Big Data Analytics MapReduce

Spark

Azioni, contare o mostrare i primi elementi di un RDD o di unDataFrame

Trasformazioni generano nuovi RDD, map, filter, reduce, join,groupBy

Trasformazioni senza shuffle map, filter, select

Trasformazioni con shuffle reduce, join, groupBy

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 30 / 73

Big Data Analytics MapReduce

Spark

Azioni, contare o mostrare i primi elementi di un RDD o di unDataFrame

Trasformazioni generano nuovi RDD, map, filter, reduce, join,groupBy

Trasformazioni senza shuffle map, filter, select

Trasformazioni con shuffle reduce, join, groupBy

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 30 / 73

Big Data Analytics MapReduce

Spark

Azioni, contare o mostrare i primi elementi di un RDD o di unDataFrame

Trasformazioni generano nuovi RDD, map, filter, reduce, join,groupBy

Trasformazioni senza shuffle map, filter, select

Trasformazioni con shuffle reduce, join, groupBy

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 30 / 73

Big Data Analytics MapReduce

Spark

Azioni, contare o mostrare i primi elementi di un RDD o di unDataFrame

Trasformazioni generano nuovi RDD, map, filter, reduce, join,groupBy

Trasformazioni senza shuffle map, filter, select

Trasformazioni con shuffle reduce, join, groupBy

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 30 / 73

Trasformazioni dei Dati

Section 2

Trasformazioni dei Dati

1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce

2 Trasformazioni dei DatiVisualizzazione

3 Streaming & Search4 Visualizzazione

Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 31 / 73

Trasformazioni dei Dati

80% of time is spent to clean and trasform the data..... 20% to comunicate

1 Import the data, json, sql, csv, Hive etc.2 Preliminary analysis of the data & cleaning missing values,

key-values data (transform into the third form of Codd),correlations etc. (tidy data).

3 Trasform the data. A pipeline of processes: mutate, join,summarize, group_by, select, filter, ecc.

4 Automatic Completion of missing values.Regression/Classification

5 Modelling (eg. MLlib or H2O)6 Visualization of data7 Communication of results

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 32 / 73

Trasformazioni dei Dati

80% of time is spent to clean and trasform the data..... 20% to comunicate

1 Import the data, json, sql, csv, Hive etc.2 Preliminary analysis of the data & cleaning missing values,

key-values data (transform into the third form of Codd),correlations etc. (tidy data).

3 Trasform the data. A pipeline of processes: mutate, join,summarize, group_by, select, filter, ecc.

4 Automatic Completion of missing values.Regression/Classification

5 Modelling (eg. MLlib or H2O)6 Visualization of data7 Communication of results

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 32 / 73

Trasformazioni dei Dati

80% of time is spent to clean and trasform the data..... 20% to comunicate

1 Import the data, json, sql, csv, Hive etc.2 Preliminary analysis of the data & cleaning missing values,

key-values data (transform into the third form of Codd),correlations etc. (tidy data).

3 Trasform the data. A pipeline of processes: mutate, join,summarize, group_by, select, filter, ecc.

4 Automatic Completion of missing values.Regression/Classification

5 Modelling (eg. MLlib or H2O)6 Visualization of data7 Communication of results

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 32 / 73

Trasformazioni dei Dati

80% of time is spent to clean and trasform the data..... 20% to comunicate

1 Import the data, json, sql, csv, Hive etc.2 Preliminary analysis of the data & cleaning missing values,

key-values data (transform into the third form of Codd),correlations etc. (tidy data).

3 Trasform the data. A pipeline of processes: mutate, join,summarize, group_by, select, filter, ecc.

4 Automatic Completion of missing values.Regression/Classification

5 Modelling (eg. MLlib or H2O)6 Visualization of data7 Communication of results

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 32 / 73

Trasformazioni dei Dati

80% of time is spent to clean and trasform the data..... 20% to comunicate

1 Import the data, json, sql, csv, Hive etc.2 Preliminary analysis of the data & cleaning missing values,

key-values data (transform into the third form of Codd),correlations etc. (tidy data).

3 Trasform the data. A pipeline of processes: mutate, join,summarize, group_by, select, filter, ecc.

4 Automatic Completion of missing values.Regression/Classification

5 Modelling (eg. MLlib or H2O)6 Visualization of data7 Communication of results

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 32 / 73

Trasformazioni dei Dati

80% of time is spent to clean and trasform the data..... 20% to comunicate

1 Import the data, json, sql, csv, Hive etc.2 Preliminary analysis of the data & cleaning missing values,

key-values data (transform into the third form of Codd),correlations etc. (tidy data).

3 Trasform the data. A pipeline of processes: mutate, join,summarize, group_by, select, filter, ecc.

4 Automatic Completion of missing values.Regression/Classification

5 Modelling (eg. MLlib or H2O)6 Visualization of data7 Communication of results

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 32 / 73

Trasformazioni dei Dati

80% of time is spent to clean and trasform the data..... 20% to comunicate

1 Import the data, json, sql, csv, Hive etc.2 Preliminary analysis of the data & cleaning missing values,

key-values data (transform into the third form of Codd),correlations etc. (tidy data).

3 Trasform the data. A pipeline of processes: mutate, join,summarize, group_by, select, filter, ecc.

4 Automatic Completion of missing values.Regression/Classification

5 Modelling (eg. MLlib or H2O)6 Visualization of data7 Communication of results

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 32 / 73

Trasformazioni dei Dati

80% of time is spent to clean and trasform the data..... 20% to comunicate

1 Import the data, json, sql, csv, Hive etc.2 Preliminary analysis of the data & cleaning missing values,

key-values data (transform into the third form of Codd),correlations etc. (tidy data).

3 Trasform the data. A pipeline of processes: mutate, join,summarize, group_by, select, filter, ecc.

4 Automatic Completion of missing values.Regression/Classification

5 Modelling (eg. MLlib or H2O)6 Visualization of data7 Communication of results

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 32 / 73

Trasformazioni dei Dati

Modelling & Visualization, Data Science with R

Why R?

open source

IDE Rstudio

Rmarkdown

Small e Big Data (seamlessly): sparklyr is a library of R.

Easy interface to Spark

Powerful visualization tools

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 33 / 73

Trasformazioni dei Dati

Modelling & Visualization, Data Science with R

Why R?

open source

IDE Rstudio

Rmarkdown

Small e Big Data (seamlessly): sparklyr is a library of R.

Easy interface to Spark

Powerful visualization tools

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 33 / 73

Trasformazioni dei Dati

Modelling & Visualization, Data Science with R

Why R?

open source

IDE Rstudio

Rmarkdown

Small e Big Data (seamlessly): sparklyr is a library of R.

Easy interface to Spark

Powerful visualization tools

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 33 / 73

Trasformazioni dei Dati

Modelling & Visualization, Data Science with R

Why R?

open source

IDE Rstudio

Rmarkdown

Small e Big Data (seamlessly): sparklyr is a library of R.

Easy interface to Spark

Powerful visualization tools

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 33 / 73

Trasformazioni dei Dati

Modelling & Visualization, Data Science with R

Why R?

open source

IDE Rstudio

Rmarkdown

Small e Big Data (seamlessly): sparklyr is a library of R.

Easy interface to Spark

Powerful visualization tools

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 33 / 73

Trasformazioni dei Dati

Modelling & Visualization, Data Science with R

Why R?

open source

IDE Rstudio

Rmarkdown

Small e Big Data (seamlessly): sparklyr is a library of R.

Easy interface to Spark

Powerful visualization tools

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 33 / 73

Trasformazioni dei Dati

R e sparklyrTidy data

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 34 / 73

Trasformazioni dei Dati

Il ciclo di vita dei dati

package tidyverse (dplyr, small data)

package sparklyr (big data)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 35 / 73

Trasformazioni dei Dati

Il ciclo di vita dei dati

package tidyverse (dplyr, small data)

package sparklyr (big data)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 35 / 73

Trasformazioni dei Dati Visualizzazione

Subsection 1

Visualizzazione

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 36 / 73

Trasformazioni dei Dati Visualizzazione

VisualizzazioneCome risulta il database prima delle trasformazioni di pulizia e di completamento

dei dati

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 37 / 73

Trasformazioni dei Dati Visualizzazione

VisualizzazioneDopo la pulizia e il completamento dei dati

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 38 / 73

Trasformazioni dei Dati Visualizzazione

Joining data & VisualizzazioneSource http://datiopen.istat.it/datasetCOM.php

https://dait.interno.gov.it/elezioni/open-data/dati-elezioni-politiche-4-marzo-2018

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 39 / 73

Trasformazioni dei Dati Visualizzazione

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 40 / 73

Trasformazioni dei Dati Visualizzazione

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 41 / 73

Trasformazioni dei Dati Visualizzazione

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 42 / 73

Streaming & Search

Section 3

Streaming & Search

1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce

2 Trasformazioni dei DatiVisualizzazione

3 Streaming & Search4 Visualizzazione

Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 43 / 73

Streaming & Search

Architettura

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 44 / 73

Streaming & Search

Storm processing

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 45 / 73

Streaming & Search

Tweet Processing

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 46 / 73

Streaming & Search

Counting & Estimating

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 47 / 73

Streaming & Search

MashupRedis

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 48 / 73

Streaming & Search

Efficient Retrieval by Key-valuesMongoDB

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 49 / 73

Streaming & Search

Trends

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 50 / 73

Streaming & Search

Real TimeMost active accounts

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 51 / 73

Streaming & Search

Topic Search

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 52 / 73

Streaming & Search

Authority Entity Search

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 53 / 73

Streaming & Search

Author Search

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 54 / 73

Streaming & Search

Trends

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 55 / 73

Visualizzazione

Section 4

Visualizzazione

1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce

2 Trasformazioni dei DatiVisualizzazione

3 Streaming & Search4 Visualizzazione

Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 56 / 73

Visualizzazione

Visualizzazione di Grafi

Existing Software are very slow

Existing Software manage few nodes and edges. We are able to

manage 500,000 nodes ( using SVG to 1ML).

Difficult to personalize.

Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).

Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73

Visualizzazione

Visualizzazione di Grafi

Existing Software are very slow

Existing Software manage few nodes and edges. We are able to

manage 500,000 nodes ( using SVG to 1ML).

Difficult to personalize.

Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).

Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73

Visualizzazione

Visualizzazione di Grafi

Existing Software are very slow

Existing Software manage few nodes and edges. We are able to

manage 500,000 nodes ( using SVG to 1ML).

Difficult to personalize.

Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).

Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73

Visualizzazione

Visualizzazione di Grafi

Existing Software are very slow

Existing Software manage few nodes and edges. We are able to

manage 500,000 nodes ( using SVG to 1ML).

Difficult to personalize.

Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).

Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73

Visualizzazione

Visualizzazione di Grafi

Existing Software are very slow

Existing Software manage few nodes and edges. We are able to

manage 500,000 nodes ( using SVG to 1ML).

Difficult to personalize.

Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).

Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73

Visualizzazione

Visualizzazione di Grafi

Existing Software are very slow

Existing Software manage few nodes and edges. We are able to

manage 500,000 nodes ( using SVG to 1ML).

Difficult to personalize.

Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).

Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73

Visualizzazione

Visualizzazione di Grafi

Existing Software are very slow

Existing Software manage few nodes and edges. We are able to

manage 500,000 nodes ( using SVG to 1ML).

Difficult to personalize.

Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).

Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73

Visualizzazione

Visualizzazione di Grafi

Existing Software are very slow

Existing Software manage few nodes and edges. We are able to

manage 500,000 nodes ( using SVG to 1ML).

Difficult to personalize.

Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).

Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73

Visualizzazione

Visualizzazione di Grafi

Existing Software are very slow

Existing Software manage few nodes and edges. We are able to

manage 500,000 nodes ( using SVG to 1ML).

Difficult to personalize.

Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).

Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73

Visualizzazione

We scale by Visualising all the sub-graphs of acommunity!First perform the clustering

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 58 / 73

Visualizzazione

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 59 / 73

Visualizzazione

A community

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 60 / 73

Visualizzazione

A communityInternal communication

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 61 / 73

Visualizzazione

A hub node

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 62 / 73

Visualizzazione

Central NodesThey connect two different comunities

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 63 / 73

Visualizzazione Spam Farm

Subsection 1

Spam Farm

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 64 / 73

Visualizzazione Spam Farm

Spam farmSpamming, counterfeiting, fake news and cybersecurity

A (real) community? (Trump community)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 65 / 73

Visualizzazione Spam Farm

Spam farmSpamming, counterfeiting, fake news and cybersecurity

A hub/authoritative account, but it is a bot!

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 66 / 73

Visualizzazione Spam Farm

Spam farmSpamming, counterfeiting, fake news and cybersecurity

A bot community (sparm farm)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 67 / 73

Visualizzazione Spam Farm

Spam farmSpamming, counterfeiting, fake news and cybersecurity

A bot community (sparm farm)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 68 / 73

Visualizzazione Spam Farm

Spam farmSpamming, Counterfeit, fake news and cybersecurity

Posts do not link to the news but to a different content!

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 69 / 73

Visualizzazione Spam Farm

Il Prossimo futuroPrevisione di Gartner (febbraio 2017)

Entro il 2020, Data Discovery intelligente su Hadoop & Spark,con ricerca e visualizzazione, come componente di unapiattaforma di BI & Analytics.

Entro il 2021, il numero di utenti di BI & Analytics con ricerca e

visualizzazione, crescerà a un tasso doppio anche in valore dibusiness.

≤ 2020, il 50% delle ricerche analitiche mediante ricerca,

elaborazione del linguaggio naturale o voce, o generate

automaticamente.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 70 / 73

Visualizzazione Spam Farm

Il Prossimo futuroPrevisione di Gartner (febbraio 2017)

Entro il 2020, Data Discovery intelligente su Hadoop & Spark,con ricerca e visualizzazione, come componente di unapiattaforma di BI & Analytics.

Entro il 2021, il numero di utenti di BI & Analytics con ricerca e

visualizzazione, crescerà a un tasso doppio anche in valore dibusiness.

≤ 2020, il 50% delle ricerche analitiche mediante ricerca,

elaborazione del linguaggio naturale o voce, o generate

automaticamente.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 70 / 73

Visualizzazione Spam Farm

Il Prossimo futuroPrevisione di Gartner (febbraio 2017)

Entro il 2020, Data Discovery intelligente su Hadoop & Spark,con ricerca e visualizzazione, come componente di unapiattaforma di BI & Analytics.

Entro il 2021, il numero di utenti di BI & Analytics con ricerca e

visualizzazione, crescerà a un tasso doppio anche in valore dibusiness.

≤ 2020, il 50% delle ricerche analitiche mediante ricerca,

elaborazione del linguaggio naturale o voce, o generate

automaticamente.

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 70 / 73

Machine Learning e Data Mining (Giorgio Gambosi)

Section 5

Machine Learning e Data Mining (Giorgio

Gambosi)

1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce

2 Trasformazioni dei DatiVisualizzazione

3 Streaming & Search4 Visualizzazione

Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 71 / 73

Hadoop e Spark (Simone Angelini)

Section 6

Hadoop e Spark (Simone Angelini)

1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce

2 Trasformazioni dei DatiVisualizzazione

3 Streaming & Search4 Visualizzazione

Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 72 / 73

Analisi di Grandi Grafi (Daniele Pasquini)

Section 7

Analisi di Grandi Grafi (Daniele Pasquini)

1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce

2 Trasformazioni dei DatiVisualizzazione

3 Streaming & Search4 Visualizzazione

Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 73 / 73

top related