Tecnologie e Metodologie di Big Data Analytics
Giambattista Amati*, Simone Angelini*, Giorgio Gambosi•, DanielePasquini•
*Fondazione Ugo Bordoni• Università Tor Vergata
Roma, Seminario ISCOM, 2 luglio 2019
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 1 / 73
Sommario
1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce
2 Trasformazioni dei DatiVisualizzazione
3 Streaming & Search
4 VisualizzazioneSpam Farm
5 Machine Learning e Data Mining (Giorgio Gambosi)
6 Hadoop e Spark (Simone Angelini)
7 Analisi di Grandi Grafi (Daniele Pasquini)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 2 / 73
Big Data Analytics
Section 1
Big Data Analytics
1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce
2 Trasformazioni dei DatiVisualizzazione
3 Streaming & Search4 Visualizzazione
Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 3 / 73
Big Data Analytics
Cosa sono i Big Data?
VARIETÀ
Dati di diversa natura e non strutturati come testi, flussi di click, segnaliprovenienti da RFID, cellulari, sensori, transazioni commerciali di variogenere. . .
VELOCITÀ
Dati che affluiscono devono essere elaborati a ritmi sostenuti o intempo reale. La velocità non si riferisce alla crescita ma alla necessitàdi comprimere i tempi di gestione e analisi.
VOLUMETerabytes di dati e la correlazione tra dati non sono gestibili con i DBtradizionali.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 4 / 73
Big Data Analytics
Cosa sono i Big Data?
VARIETÀ
Dati di diversa natura e non strutturati come testi, flussi di click, segnaliprovenienti da RFID, cellulari, sensori, transazioni commerciali di variogenere. . .
VELOCITÀ
Dati che affluiscono devono essere elaborati a ritmi sostenuti o intempo reale. La velocità non si riferisce alla crescita ma alla necessitàdi comprimere i tempi di gestione e analisi.
VOLUMETerabytes di dati e la correlazione tra dati non sono gestibili con i DBtradizionali.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 4 / 73
Big Data Analytics
Cosa sono i Big Data?
VARIETÀ
Dati di diversa natura e non strutturati come testi, flussi di click, segnaliprovenienti da RFID, cellulari, sensori, transazioni commerciali di variogenere. . .
VELOCITÀ
Dati che affluiscono devono essere elaborati a ritmi sostenuti o intempo reale. La velocità non si riferisce alla crescita ma alla necessitàdi comprimere i tempi di gestione e analisi.
VOLUMETerabytes di dati e la correlazione tra dati non sono gestibili con i DBtradizionali.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 4 / 73
Big Data Analytics
Big DataThe Forrester Wave, Q1 2013
The Forrester Wave, Q1 2013
Soluzioni software e hardware che permettano le organiz-
zazioni di scoprire, valutare e realizzare modelli predittivi anal-
izzando sorgenti informative molto grandi di dati al fine di
migliorare le proprie performance e mitigare i rischi.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 5 / 73
Big Data Analytics
Big DataThe Forrester Wave, Q1 2013
The Forrester Wave, Q1 2013
Soluzioni software e hardware che permettano le organiz-
zazioni di scoprire, valutare e realizzare modelli predittivi anal-
izzando sorgenti informative molto grandi di dati al fine di
migliorare le proprie performance e mitigare i rischi.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 5 / 73
Big Data Analytics
Gartner (Febbraio 2016)
By 2018, smart, governed, Hadoop-based, search-based
and visual-based data discovery will converge in a single
form of next-generation data discovery that will include self-
service data preparation and natural-language generation.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 6 / 73
Big Data Analytics
Internet of Things (IoT)Da Terabytes a Yottabytes
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 7 / 73
Big Data Analytics Progetti ISCOM-FUB
Subsection 1
Progetti ISCOM-FUB
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 8 / 73
Big Data Analytics Progetti ISCOM-FUB
Il Progetto SNOOPISocial Networks: L’OsservatoriO sulle Pubbliche AmministrazionI
Monitoraggio delle piattaforme sociali:
SNOOPI ha misurato quantitativamente e qualitativamente lacapacità di presidio e di interazione delle PubblicheAmministrazioni, e rilevato i temi di interesse dei cittadini su Twitter
Per fare ciò SNOOPI si è dotato di un laboratorio conun’infrastruttura HW & SW di tipo Big Data.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 9 / 73
Big Data Analytics Progetti ISCOM-FUB
Il Progetto SNOOPISocial Networks: L’OsservatoriO sulle Pubbliche AmministrazionI
Monitoraggio delle piattaforme sociali:
SNOOPI ha misurato quantitativamente e qualitativamente lacapacità di presidio e di interazione delle PubblicheAmministrazioni, e rilevato i temi di interesse dei cittadini su Twitter
Per fare ciò SNOOPI si è dotato di un laboratorio conun’infrastruttura HW & SW di tipo Big Data.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 9 / 73
Big Data Analytics Progetti ISCOM-FUB
Il Progetto SNOOPISocial Networks: L’OsservatoriO sulle Pubbliche AmministrazionI
Monitoraggio delle piattaforme sociali:
SNOOPI ha misurato quantitativamente e qualitativamente lacapacità di presidio e di interazione delle PubblicheAmministrazioni, e rilevato i temi di interesse dei cittadini su Twitter
Per fare ciò SNOOPI si è dotato di un laboratorio conun’infrastruttura HW & SW di tipo Big Data.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 9 / 73
Big Data Analytics Progetti ISCOM-FUB
Il Progetto BigDOT
Raffinamento della Piattaforma di Big Data Analytics
Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni
120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti
Dataset unico di estremo valore e interesse
Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73
Big Data Analytics Progetti ISCOM-FUB
Il Progetto BigDOT
Raffinamento della Piattaforma di Big Data Analytics
Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni
120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti
Dataset unico di estremo valore e interesse
Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73
Big Data Analytics Progetti ISCOM-FUB
Il Progetto BigDOT
Raffinamento della Piattaforma di Big Data Analytics
Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni
120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti
Dataset unico di estremo valore e interesse
Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73
Big Data Analytics Progetti ISCOM-FUB
Il Progetto BigDOT
Raffinamento della Piattaforma di Big Data Analytics
Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni
120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti
Dataset unico di estremo valore e interesse
Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73
Big Data Analytics Progetti ISCOM-FUB
Il Progetto BigDOT
Raffinamento della Piattaforma di Big Data Analytics
Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni
120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti
Dataset unico di estremo valore e interesse
Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73
Big Data Analytics Progetti ISCOM-FUB
Il Progetto BigDOT
Raffinamento della Piattaforma di Big Data Analytics
Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni
120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti
Dataset unico di estremo valore e interesse
Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73
Big Data Analytics Progetti ISCOM-FUB
Il Progetto BigDOT
Raffinamento della Piattaforma di Big Data Analytics
Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni
120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti
Dataset unico di estremo valore e interesse
Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73
Big Data Analytics Progetti ISCOM-FUB
Il Progetto BigDOT
Raffinamento della Piattaforma di Big Data Analytics
Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni
120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti
Dataset unico di estremo valore e interesse
Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73
Big Data Analytics Progetti ISCOM-FUB
Il Progetto BigDataDOCS
Analisi del malware sia attraverso l’analisi del malware siaacquisendo informazioni real-time in rete (Twitter)
Collection Nr Docs #Tokens Nr Occurrences Index Di-mensions
Nrindexes
CybSecISCOM-FUB 53.643.416 82.937.329 1.095.045.889 83GB 111MW-TaggedText 655.361 153.587.253 4.222.109.462 21GB 1
Table: The MW-TaggedText collection contains text of a subset of theVirusShare.com collection and occupies 30GB of malware data. TheCybSec-ISCOM-FUB collection is data collected from Twitter, withapproximately one index per day from the first day of detection on the10th November 2017.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 11 / 73
Big Data Analytics Progetti ISCOM-FUB
Il Laboratorio ISCOM
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 12 / 73
Big Data Analytics Progetti ISCOM-FUB
Gli iniziIl Web
Web è un esempio di ipertesto, con nodi e link.
HTML nasce per trattare l’ipertesto (CERN 1980)
La prima interfaccia: “World Wide Web” (1990)
Il primo browser, MOSAIC per UNIX (1993)
Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)
W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)
Page e Brin (Stanford University) creano PageRank di Google(1996)
Google (1997)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73
Big Data Analytics Progetti ISCOM-FUB
Gli iniziIl Web
Web è un esempio di ipertesto, con nodi e link.
HTML nasce per trattare l’ipertesto (CERN 1980)
La prima interfaccia: “World Wide Web” (1990)
Il primo browser, MOSAIC per UNIX (1993)
Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)
W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)
Page e Brin (Stanford University) creano PageRank di Google(1996)
Google (1997)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73
Big Data Analytics Progetti ISCOM-FUB
Gli iniziIl Web
Web è un esempio di ipertesto, con nodi e link.
HTML nasce per trattare l’ipertesto (CERN 1980)
La prima interfaccia: “World Wide Web” (1990)
Il primo browser, MOSAIC per UNIX (1993)
Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)
W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)
Page e Brin (Stanford University) creano PageRank di Google(1996)
Google (1997)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73
Big Data Analytics Progetti ISCOM-FUB
Gli iniziIl Web
Web è un esempio di ipertesto, con nodi e link.
HTML nasce per trattare l’ipertesto (CERN 1980)
La prima interfaccia: “World Wide Web” (1990)
Il primo browser, MOSAIC per UNIX (1993)
Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)
W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)
Page e Brin (Stanford University) creano PageRank di Google(1996)
Google (1997)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73
Big Data Analytics Progetti ISCOM-FUB
Gli iniziIl Web
Web è un esempio di ipertesto, con nodi e link.
HTML nasce per trattare l’ipertesto (CERN 1980)
La prima interfaccia: “World Wide Web” (1990)
Il primo browser, MOSAIC per UNIX (1993)
Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)
W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)
Page e Brin (Stanford University) creano PageRank di Google(1996)
Google (1997)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73
Big Data Analytics Progetti ISCOM-FUB
Gli iniziIl Web
Web è un esempio di ipertesto, con nodi e link.
HTML nasce per trattare l’ipertesto (CERN 1980)
La prima interfaccia: “World Wide Web” (1990)
Il primo browser, MOSAIC per UNIX (1993)
Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)
W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)
Page e Brin (Stanford University) creano PageRank di Google(1996)
Google (1997)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73
Big Data Analytics Progetti ISCOM-FUB
Gli iniziIl Web
Web è un esempio di ipertesto, con nodi e link.
HTML nasce per trattare l’ipertesto (CERN 1980)
La prima interfaccia: “World Wide Web” (1990)
Il primo browser, MOSAIC per UNIX (1993)
Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)
W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)
Page e Brin (Stanford University) creano PageRank di Google(1996)
Google (1997)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73
Big Data Analytics Progetti ISCOM-FUB
Gli iniziIl Web
Web è un esempio di ipertesto, con nodi e link.
HTML nasce per trattare l’ipertesto (CERN 1980)
La prima interfaccia: “World Wide Web” (1990)
Il primo browser, MOSAIC per UNIX (1993)
Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)
W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)
Page e Brin (Stanford University) creano PageRank di Google(1996)
Google (1997)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73
Big Data Analytics Progetti ISCOM-FUB
PassatoTrasporre una matrice grande e sparsa ....
1998 - Google
1999 - Systema MG (Managing Gygabytes)
2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC
2004 - Terabyte track (TREC)
2006 - Google DFS
2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.
2008 - MapReduce di Google
2011 dicembre - Hadoop su cluster di macchine.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73
Big Data Analytics Progetti ISCOM-FUB
PassatoTrasporre una matrice grande e sparsa ....
1998 - Google
1999 - Systema MG (Managing Gygabytes)
2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC
2004 - Terabyte track (TREC)
2006 - Google DFS
2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.
2008 - MapReduce di Google
2011 dicembre - Hadoop su cluster di macchine.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73
Big Data Analytics Progetti ISCOM-FUB
PassatoTrasporre una matrice grande e sparsa ....
1998 - Google
1999 - Systema MG (Managing Gygabytes)
2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC
2004 - Terabyte track (TREC)
2006 - Google DFS
2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.
2008 - MapReduce di Google
2011 dicembre - Hadoop su cluster di macchine.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73
Big Data Analytics Progetti ISCOM-FUB
PassatoTrasporre una matrice grande e sparsa ....
1998 - Google
1999 - Systema MG (Managing Gygabytes)
2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC
2004 - Terabyte track (TREC)
2006 - Google DFS
2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.
2008 - MapReduce di Google
2011 dicembre - Hadoop su cluster di macchine.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73
Big Data Analytics Progetti ISCOM-FUB
PassatoTrasporre una matrice grande e sparsa ....
1998 - Google
1999 - Systema MG (Managing Gygabytes)
2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC
2004 - Terabyte track (TREC)
2006 - Google DFS
2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.
2008 - MapReduce di Google
2011 dicembre - Hadoop su cluster di macchine.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73
Big Data Analytics Progetti ISCOM-FUB
PassatoTrasporre una matrice grande e sparsa ....
1998 - Google
1999 - Systema MG (Managing Gygabytes)
2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC
2004 - Terabyte track (TREC)
2006 - Google DFS
2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.
2008 - MapReduce di Google
2011 dicembre - Hadoop su cluster di macchine.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73
Big Data Analytics Progetti ISCOM-FUB
PassatoTrasporre una matrice grande e sparsa ....
1998 - Google
1999 - Systema MG (Managing Gygabytes)
2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC
2004 - Terabyte track (TREC)
2006 - Google DFS
2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.
2008 - MapReduce di Google
2011 dicembre - Hadoop su cluster di macchine.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73
Big Data Analytics Progetti ISCOM-FUB
PassatoTrasporre una matrice grande e sparsa ....
1998 - Google
1999 - Systema MG (Managing Gygabytes)
2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC
2004 - Terabyte track (TREC)
2006 - Google DFS
2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.
2008 - MapReduce di Google
2011 dicembre - Hadoop su cluster di macchine.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73
Big Data Analytics Progetti ISCOM-FUB
OggiScalare ma in tempo reale ....
2013 Apache Spark molto più efficiente di Hadoop
2013 Apache PySpark API di Pyton per Spark
2014 - Apache Storm trattamento dei dati real time
2014-Apache GraphX per la visualizzazione dei grafi.
2015 giugno - SparkR - R distribuito, il data mining massivo con
open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.
Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73
Big Data Analytics Progetti ISCOM-FUB
OggiScalare ma in tempo reale ....
2013 Apache Spark molto più efficiente di Hadoop
2013 Apache PySpark API di Pyton per Spark
2014 - Apache Storm trattamento dei dati real time
2014-Apache GraphX per la visualizzazione dei grafi.
2015 giugno - SparkR - R distribuito, il data mining massivo con
open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.
Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73
Big Data Analytics Progetti ISCOM-FUB
OggiScalare ma in tempo reale ....
2013 Apache Spark molto più efficiente di Hadoop
2013 Apache PySpark API di Pyton per Spark
2014 - Apache Storm trattamento dei dati real time
2014-Apache GraphX per la visualizzazione dei grafi.
2015 giugno - SparkR - R distribuito, il data mining massivo con
open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.
Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73
Big Data Analytics Progetti ISCOM-FUB
OggiScalare ma in tempo reale ....
2013 Apache Spark molto più efficiente di Hadoop
2013 Apache PySpark API di Pyton per Spark
2014 - Apache Storm trattamento dei dati real time
2014-Apache GraphX per la visualizzazione dei grafi.
2015 giugno - SparkR - R distribuito, il data mining massivo con
open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.
Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73
Big Data Analytics Progetti ISCOM-FUB
OggiScalare ma in tempo reale ....
2013 Apache Spark molto più efficiente di Hadoop
2013 Apache PySpark API di Pyton per Spark
2014 - Apache Storm trattamento dei dati real time
2014-Apache GraphX per la visualizzazione dei grafi.
2015 giugno - SparkR - R distribuito, il data mining massivo con
open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.
Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73
Big Data Analytics Progetti ISCOM-FUB
OggiScalare ma in tempo reale ....
2013 Apache Spark molto più efficiente di Hadoop
2013 Apache PySpark API di Pyton per Spark
2014 - Apache Storm trattamento dei dati real time
2014-Apache GraphX per la visualizzazione dei grafi.
2015 giugno - SparkR - R distribuito, il data mining massivo con
open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.
Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73
Big Data Analytics Progetti ISCOM-FUB
OggiScalare ma in tempo reale ....
2013 Apache Spark molto più efficiente di Hadoop
2013 Apache PySpark API di Pyton per Spark
2014 - Apache Storm trattamento dei dati real time
2014-Apache GraphX per la visualizzazione dei grafi.
2015 giugno - SparkR - R distribuito, il data mining massivo con
open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.
Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73
Big Data Analytics Progetti ISCOM-FUB
OggiScalare ma in tempo reale ....
2013 Apache Spark molto più efficiente di Hadoop
2013 Apache PySpark API di Pyton per Spark
2014 - Apache Storm trattamento dei dati real time
2014-Apache GraphX per la visualizzazione dei grafi.
2015 giugno - SparkR - R distribuito, il data mining massivo con
open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.
Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73
Big Data Analytics Progetti ISCOM-FUB
Volume
Nel 2007 Google ha elaborato 403 PB di documenti
Nel 2009 Il Regional Computer Forensic Laboratory della FBI haesaminato 3 PB di dati.
Mezzo miliardo di messaggi al giorno su Twitter (2.500 Byteciascun tweet) = 1.25 Terabyte al giorno.
Il flusso italiano filtrato da SNOOPI su Twitter è di 1.8 ML tweetal giorno.
Secondo una nostra stima si è passati da 200 tweet al minuto
(fine 2011) a 1300 tweet medi al minuto di oggi.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 16 / 73
Big Data Analytics Progetti ISCOM-FUB
Volume
Nel 2007 Google ha elaborato 403 PB di documenti
Nel 2009 Il Regional Computer Forensic Laboratory della FBI haesaminato 3 PB di dati.
Mezzo miliardo di messaggi al giorno su Twitter (2.500 Byteciascun tweet) = 1.25 Terabyte al giorno.
Il flusso italiano filtrato da SNOOPI su Twitter è di 1.8 ML tweetal giorno.
Secondo una nostra stima si è passati da 200 tweet al minuto
(fine 2011) a 1300 tweet medi al minuto di oggi.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 16 / 73
Big Data Analytics Progetti ISCOM-FUB
Volume
Nel 2007 Google ha elaborato 403 PB di documenti
Nel 2009 Il Regional Computer Forensic Laboratory della FBI haesaminato 3 PB di dati.
Mezzo miliardo di messaggi al giorno su Twitter (2.500 Byteciascun tweet) = 1.25 Terabyte al giorno.
Il flusso italiano filtrato da SNOOPI su Twitter è di 1.8 ML tweetal giorno.
Secondo una nostra stima si è passati da 200 tweet al minuto
(fine 2011) a 1300 tweet medi al minuto di oggi.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 16 / 73
Big Data Analytics Progetti ISCOM-FUB
Volume
Nel 2007 Google ha elaborato 403 PB di documenti
Nel 2009 Il Regional Computer Forensic Laboratory della FBI haesaminato 3 PB di dati.
Mezzo miliardo di messaggi al giorno su Twitter (2.500 Byteciascun tweet) = 1.25 Terabyte al giorno.
Il flusso italiano filtrato da SNOOPI su Twitter è di 1.8 ML tweetal giorno.
Secondo una nostra stima si è passati da 200 tweet al minuto
(fine 2011) a 1300 tweet medi al minuto di oggi.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 16 / 73
Big Data Analytics Progetti ISCOM-FUB
Volume
Nel 2007 Google ha elaborato 403 PB di documenti
Nel 2009 Il Regional Computer Forensic Laboratory della FBI haesaminato 3 PB di dati.
Mezzo miliardo di messaggi al giorno su Twitter (2.500 Byteciascun tweet) = 1.25 Terabyte al giorno.
Il flusso italiano filtrato da SNOOPI su Twitter è di 1.8 ML tweetal giorno.
Secondo una nostra stima si è passati da 200 tweet al minuto
(fine 2011) a 1300 tweet medi al minuto di oggi.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 16 / 73
Big Data Analytics Progetti ISCOM-FUB
Architettura di un ecosistema Big Data: Spark & R ...
SparklyR SparkPy SparkSQL MLibSpark
StreamingGraphX
Spark Core API
R Python SQL Scala Java
YARN (Hadoop-Gestione Risorse, scheduling, monitoraggio)
HDFS (Gestione File Distribuito, repliche ...)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 17 / 73
Big Data Analytics Progetti ISCOM-FUB
Come gestire i Big DataIl paradigma MapReduce: I Concetti Chiave
Distributed File System (DFS)
I dati hanno una chiave associata (chiave-valore)
Il modello computazionale MapReduce
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 18 / 73
Big Data Analytics Progetti ISCOM-FUB
Come gestire i Big DataIl paradigma MapReduce: I Concetti Chiave
Distributed File System (DFS)
I dati hanno una chiave associata (chiave-valore)
Il modello computazionale MapReduce
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 18 / 73
Big Data Analytics Progetti ISCOM-FUB
Come gestire i Big DataIl paradigma MapReduce: I Concetti Chiave
Distributed File System (DFS)
I dati hanno una chiave associata (chiave-valore)
Il modello computazionale MapReduce
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 18 / 73
Big Data Analytics Progetti ISCOM-FUB
Distributed File SystemGoogle GFS, Hadoop HDFS
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 19 / 73
Big Data Analytics Progetti ISCOM-FUB
Distributed File System (DFS)I dati vengono spezzettati, distribuiti e replicati in più file e più macchine
Si hanno cluster di rack
Ciascun rack ha 8-64 macchine collegate con uno switch a 1Gbps
I cluster sono collegati tra loro da un backbone principale a 2-8Gbps
I dati si spezzettano in chunk (∼ 128 MB), ogni chunk ospitato inmemoria da una macchina (chunk server).
Almeno 2-3 repliche di un chunk, un solo chunk al più in un rack.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 20 / 73
Big Data Analytics Progetti ISCOM-FUB
Distributed File System (DFS)I dati vengono spezzettati, distribuiti e replicati in più file e più macchine
Si hanno cluster di rack
Ciascun rack ha 8-64 macchine collegate con uno switch a 1Gbps
I cluster sono collegati tra loro da un backbone principale a 2-8Gbps
I dati si spezzettano in chunk (∼ 128 MB), ogni chunk ospitato inmemoria da una macchina (chunk server).
Almeno 2-3 repliche di un chunk, un solo chunk al più in un rack.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 20 / 73
Big Data Analytics Progetti ISCOM-FUB
Distributed File System (DFS)I dati vengono spezzettati, distribuiti e replicati in più file e più macchine
Si hanno cluster di rack
Ciascun rack ha 8-64 macchine collegate con uno switch a 1Gbps
I cluster sono collegati tra loro da un backbone principale a 2-8Gbps
I dati si spezzettano in chunk (∼ 128 MB), ogni chunk ospitato inmemoria da una macchina (chunk server).
Almeno 2-3 repliche di un chunk, un solo chunk al più in un rack.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 20 / 73
Big Data Analytics Progetti ISCOM-FUB
Distributed File System (DFS)I dati vengono spezzettati, distribuiti e replicati in più file e più macchine
Si hanno cluster di rack
Ciascun rack ha 8-64 macchine collegate con uno switch a 1Gbps
I cluster sono collegati tra loro da un backbone principale a 2-8Gbps
I dati si spezzettano in chunk (∼ 128 MB), ogni chunk ospitato inmemoria da una macchina (chunk server).
Almeno 2-3 repliche di un chunk, un solo chunk al più in un rack.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 20 / 73
Big Data Analytics Progetti ISCOM-FUB
Distributed File System (DFS)I dati vengono spezzettati, distribuiti e replicati in più file e più macchine
Si hanno cluster di rack
Ciascun rack ha 8-64 macchine collegate con uno switch a 1Gbps
I cluster sono collegati tra loro da un backbone principale a 2-8Gbps
I dati si spezzettano in chunk (∼ 128 MB), ogni chunk ospitato inmemoria da una macchina (chunk server).
Almeno 2-3 repliche di un chunk, un solo chunk al più in un rack.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 20 / 73
Big Data Analytics Progetti ISCOM-FUB
Distributed File SystemGoogle GFS, Hadoop HDFS
Le operazioni tipiche che vengono effettuate sono due: lettura e
concatenazione (read e append)
Gli update sulle singole macchine sono rari.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 21 / 73
Big Data Analytics Progetti ISCOM-FUB
Distributed File SystemQuante macchine?
Nel 2007 Google affermava di avere 403 PB.
Tasso di compressione degli indici 3,5%: ∼ 14PB di datiprodottiSe tutto l’indice è in memoria centrale ....
con 1.000.000 servers, 2-3 repliche... nel 2007 occorrevano più di un 500,000 macchine con almeno128 GB di RAM.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 22 / 73
Big Data Analytics Progetti ISCOM-FUB
Distributed File SystemQuante macchine?
Nel 2007 Google affermava di avere 403 PB.
Tasso di compressione degli indici 3,5%: ∼ 14PB di datiprodottiSe tutto l’indice è in memoria centrale ....
con 1.000.000 servers, 2-3 repliche... nel 2007 occorrevano più di un 500,000 macchine con almeno128 GB di RAM.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 22 / 73
Big Data Analytics Progetti ISCOM-FUB
Distributed File SystemQuante macchine?
Nel 2007 Google affermava di avere 403 PB.
Tasso di compressione degli indici 3,5%: ∼ 14PB di datiprodottiSe tutto l’indice è in memoria centrale ....
con 1.000.000 servers, 2-3 repliche... nel 2007 occorrevano più di un 500,000 macchine con almeno128 GB di RAM.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 22 / 73
Big Data Analytics Progetti ISCOM-FUB
Distributed File SystemQuante macchine?
Nel 2007 Google affermava di avere 403 PB.
Tasso di compressione degli indici 3,5%: ∼ 14PB di datiprodottiSe tutto l’indice è in memoria centrale ....
con 1.000.000 servers, 2-3 repliche... nel 2007 occorrevano più di un 500,000 macchine con almeno128 GB di RAM.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 22 / 73
Big Data Analytics Progetti ISCOM-FUB
Distributed File SystemQuante macchine?
Nel 2007 Google affermava di avere 403 PB.
Tasso di compressione degli indici 3,5%: ∼ 14PB di datiprodottiSe tutto l’indice è in memoria centrale ....
con 1.000.000 servers, 2-3 repliche... nel 2007 occorrevano più di un 500,000 macchine con almeno128 GB di RAM.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 22 / 73
Big Data Analytics MapReduce
Subsection 2
MapReduce
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 23 / 73
Big Data Analytics MapReduce
La programmazione distribuita è molto pesanteSoluzione: MapReduce
MapReduce viene incontro alle sfide della programmazione distribuita.Le 3 regole
Archivia i dati con ridondanza su nodi multipli per garantire lapersistenza e la loro disponibilità
Effettua il calcolo in prossimità dei dati per minimizzare il costodi trasferimento dei dati
Usa un modello semplice di programmazione per nasconderela complessità dell’architettura
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 24 / 73
Big Data Analytics MapReduce
La programmazione distribuita è molto pesanteSoluzione: MapReduce
MapReduce viene incontro alle sfide della programmazione distribuita.Le 3 regole
Archivia i dati con ridondanza su nodi multipli per garantire lapersistenza e la loro disponibilità
Effettua il calcolo in prossimità dei dati per minimizzare il costodi trasferimento dei dati
Usa un modello semplice di programmazione per nasconderela complessità dell’architettura
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 24 / 73
Big Data Analytics MapReduce
La programmazione distribuita è molto pesanteSoluzione: MapReduce
MapReduce viene incontro alle sfide della programmazione distribuita.Le 3 regole
Archivia i dati con ridondanza su nodi multipli per garantire lapersistenza e la loro disponibilità
Effettua il calcolo in prossimità dei dati per minimizzare il costodi trasferimento dei dati
Usa un modello semplice di programmazione per nasconderela complessità dell’architettura
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 24 / 73
Big Data Analytics MapReduce
Conteggio Parole
words(doc.txt)| sort| uniq -c
Map
Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave
Raggruppare per chiavi
Ordinare e Distribuire
Ridurre
Aggregare, sommare, filtrare o trasformareScrivere il risultato su file
Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 25 / 73
Big Data Analytics MapReduce
Conteggio Parole
words(doc.txt)| sort| uniq -c
Map
Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave
Raggruppare per chiavi
Ordinare e Distribuire
Ridurre
Aggregare, sommare, filtrare o trasformareScrivere il risultato su file
Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 25 / 73
Big Data Analytics MapReduce
Conteggio Parole
words(doc.txt)| sort| uniq -c
Map
Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave
Raggruppare per chiavi
Ordinare e Distribuire
Ridurre
Aggregare, sommare, filtrare o trasformareScrivere il risultato su file
Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 25 / 73
Big Data Analytics MapReduce
Conteggio Parole
words(doc.txt)| sort| uniq -c
Map
Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave
Raggruppare per chiavi
Ordinare e Distribuire
Ridurre
Aggregare, sommare, filtrare o trasformareScrivere il risultato su file
Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 25 / 73
Big Data Analytics MapReduce
Conteggio Parole
words(doc.txt)| sort| uniq -c
Map
Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave
Raggruppare per chiavi
Ordinare e Distribuire
Ridurre
Aggregare, sommare, filtrare o trasformareScrivere il risultato su file
Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 25 / 73
Big Data Analytics MapReduce
Conteggio Parole
words(doc.txt)| sort| uniq -c
Map
Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave
Raggruppare per chiavi
Ordinare e Distribuire
Ridurre
Aggregare, sommare, filtrare o trasformareScrivere il risultato su file
Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 25 / 73
Big Data Analytics MapReduce
Conteggio Parole
words(doc.txt)| sort| uniq -c
Map
Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave
Raggruppare per chiavi
Ordinare e Distribuire
Ridurre
Aggregare, sommare, filtrare o trasformareScrivere il risultato su file
Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 25 / 73
Big Data Analytics MapReduce
Conteggio Parole
words(doc.txt)| sort| uniq -c
Map
Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave
Raggruppare per chiavi
Ordinare e Distribuire
Ridurre
Aggregare, sommare, filtrare o trasformareScrivere il risultato su file
Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 25 / 73
Big Data Analytics MapReduce
Map ReduceDichiarare il numero dei Map e di Reduce, una chiave per un solo Reduce
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 26 / 73
Big Data Analytics MapReduce
Map Reduce
map(key, value)://key: document id; value: il testo del documento
for each word w in value:emit(w, 1)
reduce(key, values):// key:una parola w; value: un intero come contatore
result = 0for each count v in values:
result += vemit(w, result)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 27 / 73
Big Data Analytics MapReduce
Map ReduceIn breve
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 28 / 73
Big Data Analytics MapReduce
Scheduling & Data flowCosa non deve fare il programmatore, ma che fa il sistema
Partizione dei dati
Scheduling dei task per l’esecuzione del programma tra le variemacchine
Ordinare per chiave i dati
Assegnare i dati (intermedi) ai nodi.
Gestire i guasti dei nodi.
Gestire la comunicazione delle macchine
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 29 / 73
Big Data Analytics MapReduce
Scheduling & Data flowCosa non deve fare il programmatore, ma che fa il sistema
Partizione dei dati
Scheduling dei task per l’esecuzione del programma tra le variemacchine
Ordinare per chiave i dati
Assegnare i dati (intermedi) ai nodi.
Gestire i guasti dei nodi.
Gestire la comunicazione delle macchine
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 29 / 73
Big Data Analytics MapReduce
Scheduling & Data flowCosa non deve fare il programmatore, ma che fa il sistema
Partizione dei dati
Scheduling dei task per l’esecuzione del programma tra le variemacchine
Ordinare per chiave i dati
Assegnare i dati (intermedi) ai nodi.
Gestire i guasti dei nodi.
Gestire la comunicazione delle macchine
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 29 / 73
Big Data Analytics MapReduce
Scheduling & Data flowCosa non deve fare il programmatore, ma che fa il sistema
Partizione dei dati
Scheduling dei task per l’esecuzione del programma tra le variemacchine
Ordinare per chiave i dati
Assegnare i dati (intermedi) ai nodi.
Gestire i guasti dei nodi.
Gestire la comunicazione delle macchine
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 29 / 73
Big Data Analytics MapReduce
Scheduling & Data flowCosa non deve fare il programmatore, ma che fa il sistema
Partizione dei dati
Scheduling dei task per l’esecuzione del programma tra le variemacchine
Ordinare per chiave i dati
Assegnare i dati (intermedi) ai nodi.
Gestire i guasti dei nodi.
Gestire la comunicazione delle macchine
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 29 / 73
Big Data Analytics MapReduce
Scheduling & Data flowCosa non deve fare il programmatore, ma che fa il sistema
Partizione dei dati
Scheduling dei task per l’esecuzione del programma tra le variemacchine
Ordinare per chiave i dati
Assegnare i dati (intermedi) ai nodi.
Gestire i guasti dei nodi.
Gestire la comunicazione delle macchine
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 29 / 73
Big Data Analytics MapReduce
Spark
Azioni, contare o mostrare i primi elementi di un RDD o di unDataFrame
Trasformazioni generano nuovi RDD, map, filter, reduce, join,groupBy
Trasformazioni senza shuffle map, filter, select
Trasformazioni con shuffle reduce, join, groupBy
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 30 / 73
Big Data Analytics MapReduce
Spark
Azioni, contare o mostrare i primi elementi di un RDD o di unDataFrame
Trasformazioni generano nuovi RDD, map, filter, reduce, join,groupBy
Trasformazioni senza shuffle map, filter, select
Trasformazioni con shuffle reduce, join, groupBy
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 30 / 73
Big Data Analytics MapReduce
Spark
Azioni, contare o mostrare i primi elementi di un RDD o di unDataFrame
Trasformazioni generano nuovi RDD, map, filter, reduce, join,groupBy
Trasformazioni senza shuffle map, filter, select
Trasformazioni con shuffle reduce, join, groupBy
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 30 / 73
Big Data Analytics MapReduce
Spark
Azioni, contare o mostrare i primi elementi di un RDD o di unDataFrame
Trasformazioni generano nuovi RDD, map, filter, reduce, join,groupBy
Trasformazioni senza shuffle map, filter, select
Trasformazioni con shuffle reduce, join, groupBy
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 30 / 73
Trasformazioni dei Dati
Section 2
Trasformazioni dei Dati
1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce
2 Trasformazioni dei DatiVisualizzazione
3 Streaming & Search4 Visualizzazione
Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 31 / 73
Trasformazioni dei Dati
80% of time is spent to clean and trasform the data..... 20% to comunicate
1 Import the data, json, sql, csv, Hive etc.2 Preliminary analysis of the data & cleaning missing values,
key-values data (transform into the third form of Codd),correlations etc. (tidy data).
3 Trasform the data. A pipeline of processes: mutate, join,summarize, group_by, select, filter, ecc.
4 Automatic Completion of missing values.Regression/Classification
5 Modelling (eg. MLlib or H2O)6 Visualization of data7 Communication of results
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 32 / 73
Trasformazioni dei Dati
80% of time is spent to clean and trasform the data..... 20% to comunicate
1 Import the data, json, sql, csv, Hive etc.2 Preliminary analysis of the data & cleaning missing values,
key-values data (transform into the third form of Codd),correlations etc. (tidy data).
3 Trasform the data. A pipeline of processes: mutate, join,summarize, group_by, select, filter, ecc.
4 Automatic Completion of missing values.Regression/Classification
5 Modelling (eg. MLlib or H2O)6 Visualization of data7 Communication of results
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 32 / 73
Trasformazioni dei Dati
80% of time is spent to clean and trasform the data..... 20% to comunicate
1 Import the data, json, sql, csv, Hive etc.2 Preliminary analysis of the data & cleaning missing values,
key-values data (transform into the third form of Codd),correlations etc. (tidy data).
3 Trasform the data. A pipeline of processes: mutate, join,summarize, group_by, select, filter, ecc.
4 Automatic Completion of missing values.Regression/Classification
5 Modelling (eg. MLlib or H2O)6 Visualization of data7 Communication of results
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 32 / 73
Trasformazioni dei Dati
80% of time is spent to clean and trasform the data..... 20% to comunicate
1 Import the data, json, sql, csv, Hive etc.2 Preliminary analysis of the data & cleaning missing values,
key-values data (transform into the third form of Codd),correlations etc. (tidy data).
3 Trasform the data. A pipeline of processes: mutate, join,summarize, group_by, select, filter, ecc.
4 Automatic Completion of missing values.Regression/Classification
5 Modelling (eg. MLlib or H2O)6 Visualization of data7 Communication of results
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 32 / 73
Trasformazioni dei Dati
80% of time is spent to clean and trasform the data..... 20% to comunicate
1 Import the data, json, sql, csv, Hive etc.2 Preliminary analysis of the data & cleaning missing values,
key-values data (transform into the third form of Codd),correlations etc. (tidy data).
3 Trasform the data. A pipeline of processes: mutate, join,summarize, group_by, select, filter, ecc.
4 Automatic Completion of missing values.Regression/Classification
5 Modelling (eg. MLlib or H2O)6 Visualization of data7 Communication of results
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 32 / 73
Trasformazioni dei Dati
80% of time is spent to clean and trasform the data..... 20% to comunicate
1 Import the data, json, sql, csv, Hive etc.2 Preliminary analysis of the data & cleaning missing values,
key-values data (transform into the third form of Codd),correlations etc. (tidy data).
3 Trasform the data. A pipeline of processes: mutate, join,summarize, group_by, select, filter, ecc.
4 Automatic Completion of missing values.Regression/Classification
5 Modelling (eg. MLlib or H2O)6 Visualization of data7 Communication of results
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 32 / 73
Trasformazioni dei Dati
80% of time is spent to clean and trasform the data..... 20% to comunicate
1 Import the data, json, sql, csv, Hive etc.2 Preliminary analysis of the data & cleaning missing values,
key-values data (transform into the third form of Codd),correlations etc. (tidy data).
3 Trasform the data. A pipeline of processes: mutate, join,summarize, group_by, select, filter, ecc.
4 Automatic Completion of missing values.Regression/Classification
5 Modelling (eg. MLlib or H2O)6 Visualization of data7 Communication of results
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 32 / 73
Trasformazioni dei Dati
80% of time is spent to clean and trasform the data..... 20% to comunicate
1 Import the data, json, sql, csv, Hive etc.2 Preliminary analysis of the data & cleaning missing values,
key-values data (transform into the third form of Codd),correlations etc. (tidy data).
3 Trasform the data. A pipeline of processes: mutate, join,summarize, group_by, select, filter, ecc.
4 Automatic Completion of missing values.Regression/Classification
5 Modelling (eg. MLlib or H2O)6 Visualization of data7 Communication of results
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 32 / 73
Trasformazioni dei Dati
Modelling & Visualization, Data Science with R
Why R?
open source
IDE Rstudio
Rmarkdown
Small e Big Data (seamlessly): sparklyr is a library of R.
Easy interface to Spark
Powerful visualization tools
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 33 / 73
Trasformazioni dei Dati
Modelling & Visualization, Data Science with R
Why R?
open source
IDE Rstudio
Rmarkdown
Small e Big Data (seamlessly): sparklyr is a library of R.
Easy interface to Spark
Powerful visualization tools
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 33 / 73
Trasformazioni dei Dati
Modelling & Visualization, Data Science with R
Why R?
open source
IDE Rstudio
Rmarkdown
Small e Big Data (seamlessly): sparklyr is a library of R.
Easy interface to Spark
Powerful visualization tools
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 33 / 73
Trasformazioni dei Dati
Modelling & Visualization, Data Science with R
Why R?
open source
IDE Rstudio
Rmarkdown
Small e Big Data (seamlessly): sparklyr is a library of R.
Easy interface to Spark
Powerful visualization tools
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 33 / 73
Trasformazioni dei Dati
Modelling & Visualization, Data Science with R
Why R?
open source
IDE Rstudio
Rmarkdown
Small e Big Data (seamlessly): sparklyr is a library of R.
Easy interface to Spark
Powerful visualization tools
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 33 / 73
Trasformazioni dei Dati
Modelling & Visualization, Data Science with R
Why R?
open source
IDE Rstudio
Rmarkdown
Small e Big Data (seamlessly): sparklyr is a library of R.
Easy interface to Spark
Powerful visualization tools
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 33 / 73
Trasformazioni dei Dati
R e sparklyrTidy data
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 34 / 73
Trasformazioni dei Dati
Il ciclo di vita dei dati
package tidyverse (dplyr, small data)
package sparklyr (big data)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 35 / 73
Trasformazioni dei Dati
Il ciclo di vita dei dati
package tidyverse (dplyr, small data)
package sparklyr (big data)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 35 / 73
Trasformazioni dei Dati Visualizzazione
Subsection 1
Visualizzazione
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 36 / 73
Trasformazioni dei Dati Visualizzazione
VisualizzazioneCome risulta il database prima delle trasformazioni di pulizia e di completamento
dei dati
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 37 / 73
Trasformazioni dei Dati Visualizzazione
VisualizzazioneDopo la pulizia e il completamento dei dati
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 38 / 73
Trasformazioni dei Dati Visualizzazione
Joining data & VisualizzazioneSource http://datiopen.istat.it/datasetCOM.php
https://dait.interno.gov.it/elezioni/open-data/dati-elezioni-politiche-4-marzo-2018
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 39 / 73
Trasformazioni dei Dati Visualizzazione
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 40 / 73
Trasformazioni dei Dati Visualizzazione
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 41 / 73
Trasformazioni dei Dati Visualizzazione
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 42 / 73
Streaming & Search
Section 3
Streaming & Search
1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce
2 Trasformazioni dei DatiVisualizzazione
3 Streaming & Search4 Visualizzazione
Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 43 / 73
Streaming & Search
Architettura
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 44 / 73
Streaming & Search
Storm processing
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 45 / 73
Streaming & Search
Tweet Processing
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 46 / 73
Streaming & Search
Counting & Estimating
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 47 / 73
Streaming & Search
MashupRedis
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 48 / 73
Streaming & Search
Efficient Retrieval by Key-valuesMongoDB
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 49 / 73
Streaming & Search
Trends
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 50 / 73
Streaming & Search
Real TimeMost active accounts
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 51 / 73
Streaming & Search
Topic Search
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 52 / 73
Streaming & Search
Authority Entity Search
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 53 / 73
Streaming & Search
Author Search
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 54 / 73
Streaming & Search
Trends
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 55 / 73
Visualizzazione
Section 4
Visualizzazione
1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce
2 Trasformazioni dei DatiVisualizzazione
3 Streaming & Search4 Visualizzazione
Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 56 / 73
Visualizzazione
Visualizzazione di Grafi
Existing Software are very slow
Existing Software manage few nodes and edges. We are able to
manage 500,000 nodes ( using SVG to 1ML).
Difficult to personalize.
Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).
Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73
Visualizzazione
Visualizzazione di Grafi
Existing Software are very slow
Existing Software manage few nodes and edges. We are able to
manage 500,000 nodes ( using SVG to 1ML).
Difficult to personalize.
Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).
Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73
Visualizzazione
Visualizzazione di Grafi
Existing Software are very slow
Existing Software manage few nodes and edges. We are able to
manage 500,000 nodes ( using SVG to 1ML).
Difficult to personalize.
Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).
Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73
Visualizzazione
Visualizzazione di Grafi
Existing Software are very slow
Existing Software manage few nodes and edges. We are able to
manage 500,000 nodes ( using SVG to 1ML).
Difficult to personalize.
Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).
Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73
Visualizzazione
Visualizzazione di Grafi
Existing Software are very slow
Existing Software manage few nodes and edges. We are able to
manage 500,000 nodes ( using SVG to 1ML).
Difficult to personalize.
Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).
Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73
Visualizzazione
Visualizzazione di Grafi
Existing Software are very slow
Existing Software manage few nodes and edges. We are able to
manage 500,000 nodes ( using SVG to 1ML).
Difficult to personalize.
Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).
Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73
Visualizzazione
Visualizzazione di Grafi
Existing Software are very slow
Existing Software manage few nodes and edges. We are able to
manage 500,000 nodes ( using SVG to 1ML).
Difficult to personalize.
Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).
Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73
Visualizzazione
Visualizzazione di Grafi
Existing Software are very slow
Existing Software manage few nodes and edges. We are able to
manage 500,000 nodes ( using SVG to 1ML).
Difficult to personalize.
Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).
Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73
Visualizzazione
Visualizzazione di Grafi
Existing Software are very slow
Existing Software manage few nodes and edges. We are able to
manage 500,000 nodes ( using SVG to 1ML).
Difficult to personalize.
Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).
Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73
Visualizzazione
We scale by Visualising all the sub-graphs of acommunity!First perform the clustering
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 58 / 73
Visualizzazione
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 59 / 73
Visualizzazione
A community
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 60 / 73
Visualizzazione
A communityInternal communication
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 61 / 73
Visualizzazione
A hub node
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 62 / 73
Visualizzazione
Central NodesThey connect two different comunities
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 63 / 73
Visualizzazione Spam Farm
Subsection 1
Spam Farm
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 64 / 73
Visualizzazione Spam Farm
Spam farmSpamming, counterfeiting, fake news and cybersecurity
A (real) community? (Trump community)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 65 / 73
Visualizzazione Spam Farm
Spam farmSpamming, counterfeiting, fake news and cybersecurity
A hub/authoritative account, but it is a bot!
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 66 / 73
Visualizzazione Spam Farm
Spam farmSpamming, counterfeiting, fake news and cybersecurity
A bot community (sparm farm)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 67 / 73
Visualizzazione Spam Farm
Spam farmSpamming, counterfeiting, fake news and cybersecurity
A bot community (sparm farm)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 68 / 73
Visualizzazione Spam Farm
Spam farmSpamming, Counterfeit, fake news and cybersecurity
Posts do not link to the news but to a different content!
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 69 / 73
Visualizzazione Spam Farm
Il Prossimo futuroPrevisione di Gartner (febbraio 2017)
Entro il 2020, Data Discovery intelligente su Hadoop & Spark,con ricerca e visualizzazione, come componente di unapiattaforma di BI & Analytics.
Entro il 2021, il numero di utenti di BI & Analytics con ricerca e
visualizzazione, crescerà a un tasso doppio anche in valore dibusiness.
≤ 2020, il 50% delle ricerche analitiche mediante ricerca,
elaborazione del linguaggio naturale o voce, o generate
automaticamente.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 70 / 73
Visualizzazione Spam Farm
Il Prossimo futuroPrevisione di Gartner (febbraio 2017)
Entro il 2020, Data Discovery intelligente su Hadoop & Spark,con ricerca e visualizzazione, come componente di unapiattaforma di BI & Analytics.
Entro il 2021, il numero di utenti di BI & Analytics con ricerca e
visualizzazione, crescerà a un tasso doppio anche in valore dibusiness.
≤ 2020, il 50% delle ricerche analitiche mediante ricerca,
elaborazione del linguaggio naturale o voce, o generate
automaticamente.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 70 / 73
Visualizzazione Spam Farm
Il Prossimo futuroPrevisione di Gartner (febbraio 2017)
Entro il 2020, Data Discovery intelligente su Hadoop & Spark,con ricerca e visualizzazione, come componente di unapiattaforma di BI & Analytics.
Entro il 2021, il numero di utenti di BI & Analytics con ricerca e
visualizzazione, crescerà a un tasso doppio anche in valore dibusiness.
≤ 2020, il 50% delle ricerche analitiche mediante ricerca,
elaborazione del linguaggio naturale o voce, o generate
automaticamente.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 70 / 73
Machine Learning e Data Mining (Giorgio Gambosi)
Section 5
Machine Learning e Data Mining (Giorgio
Gambosi)
1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce
2 Trasformazioni dei DatiVisualizzazione
3 Streaming & Search4 Visualizzazione
Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 71 / 73
Hadoop e Spark (Simone Angelini)
Section 6
Hadoop e Spark (Simone Angelini)
1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce
2 Trasformazioni dei DatiVisualizzazione
3 Streaming & Search4 Visualizzazione
Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 72 / 73
Analisi di Grandi Grafi (Daniele Pasquini)
Section 7
Analisi di Grandi Grafi (Daniele Pasquini)
1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce
2 Trasformazioni dei DatiVisualizzazione
3 Streaming & Search4 Visualizzazione
Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 73 / 73