big data e la forza degli eventi - intervento di melen

Post on 24-Jun-2015

596 Views

Category:

Technology

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

Speech di Melen per l'evento "Big Data e la forza degli eventi" http://www.comunicareonline.it

TRANSCRIPT

Big data ed eventi:quasi un tutorial

Prof. Riccardo Melenmelen@disco.unimib.it

Big Data

� Monitoraggio di reti e infrastrutture IT• performance: data center, SOA/ESB, infrastrutture virtuali,…• configurazione dei client• sicurezza: firewall, IDS, ACL, log,…

� Comportamento degli utenti• accesso ai servizi• clickstreams• chiamate telefoniche: accounting, marketing, fraud detection

� Localizzazione e sensori• smartphones• smart cities infrastructures• personal/assisted living

Il percorso dei dati

strumentazione

raccolta

normalizzazione/

filtraggiomemorizzazione

analisi

High performance DBMS

� High performance SQL DBMS• Solid state disks• Column-oriented databases

� Ma i dati sono spesso• non strutturati• non utilizzati come in un DBMS classico (write/update transactions +

analytics)

NoSQL Databases

MapReduce

� Un recente (2004) modello di programmazione• scalabile su architetture parallele (shared-nothing)• estremamente flessibile e di enorme successo• implementazioni open source: Hadoop• offerte Cloud: Amazon Elastic MapReduce (basato su Hadoop)

worker

MAP

merge/sort

worker

MAP

worker

REDUCE

worker

REDUCE

calcola una chiave ed emette la coppia (chiave, dato)

lavora su liste di dati con la stessa chiave

Vantaggi e limiti di MR

� Una implementazione di MapReduce come Hadoop è facile da utilizzare ed estremamente flessibile• il framework gestisce i problemi di parallelizzazione, partizionamento

e bilanciamento del carico, fault tolerance• lo storage è implementato con un file system distribuito (HDFS)• il modello di programmazione è molto generale (ad esempio è

semplice mappare gli operatori relazionali)• vi sono svilupppi continui (ad esempio Hive/HiveQL)

� Non risolve tutti i problemi in maniera ottimale• ad esempio non è un modello efficiente per effettuare analisi in

maniera ripetitiva sui dati mantenuti in un DB relazionale• e comunque non abbiamo affrontato il problema della

strumentazione, della raccolta e del filtraggio preliminare dei dati

Cosa è un evento

� La connotazione temporale è alla base del significato di un evento

TééâÜÜt? DD Åtzz|É ECDETééâÜÜt? DD Åtzz|É ECDETééâÜÜt? DD Åtzz|É ECDETééâÜÜt? DD Åtzz|É ECDE

Un lieto evento Una fotografia

Elaborazione di eventi

� Quando parliamo elaborazione di eventi:• l’ordinamento temporale ha un significato fondamentale• in molti casi la risposta in tempo reale è un requisito essenziale

� Scenari applicativi presenti e futuri• Network fault e performance management• Security management• Financial transactions• Marketing (A/B testing)• «Smart city» applications• Assisted living

Il percorso degli eventi

strumentazione

raccolta

normalizzazione/

filtraggiomemorizzazione

analisi real time (sliding window)decisioni/azioni automatiche

Correlazione di eventi

� Elaborare eventi significa (anche) effettuarne la correlazione temporale

� Correlazione di eventi omogenei su un singolo dominio (ordinamento, distanza temporale fra due eventi)• sequenza di eventi osservata da un IDS• sequenza di accessi a pagine di un sito

� Correlazione di eventi eterogenei (o correlazione fra eventi e informazioni di stato/configurazione)• accesso fisico ad un edificio, eventi di motion detection provenienti da

videocamere, accesso al sistema informativo

Un esempio: Splunk

Splunk è un esempio di piattaforma commerciale per la raccolta, la correlazione e l’analisi dei dati

È dotata di agenti in grado di interfacciarsi efficacemente con varie sorgenti di dati (ad esempio WMI)

Effettua la indicizzazione dei dati in parallelo, in modo da scalare fino a workload giornalieri molto grandi (terabyte)

Fornisce un linguaggio per la ricerca e la correlazione degli eventi (Search Processing Language)

Le soluzioni disponibili

� Splunk non è ovviamente l’unica soluzione disponibile: esistono varie alternative, anche open source• piattaforme orientate al monitoraggio di infrastrutture IT (es.: Nagios)• soluzioni di gestione dei log (Logstash, Sumologic ecc.)

� In generale le piattaforme disponibili sono progettate per il supporto delle decisioni umane

� Molto più sfidante è il problema della comprensione e reazione automatica ai flussi di eventi con le loro correlazioni

Open Event «Tapping» ?

� Un concetto di Smart City avanzato: accesso aperto ad una infrastruttura di gestione di flussi di eventi in tempo reale

Un modello generale di event processing

videopresence/location

sensori di movimento

analisitraffico IP

analisi video

security alerts

interfaccia utente

behavior analysis

device e sensori

routing e analisi

del traffico

esperti di

dominio

integrazione e

presentazione

controllo accessi

anomaly detection

Routing, distribuzione e filtraggio dei dati

coordinamento e integrazione

top related