sumary of person surveillance using visual and infrared imagery

Post on 24-Jan-2017

170 Views

Category:

Technology

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Person Surveillance Using Visual and Infrared Imagery

Author: Stephen J. Krotosky and Mohan Manubhai Trivedi

Abstract I

• Metodologia per analizzare i sistemi multimodali e multiprospettiva di sorveglianza di persone.

• Materiali:– Due telecamera di colore– Due telecamere a infrarossi

• Usando un algoritmo basato in HOG hanno creato un sistema probabilistico per evaluare il riconoscimento de persone all'interno di una scena.

HOG (Histogram of Oriented Gradients - Istogramma di gradienti orientati)

Abstract II

• Detector trifocale – Tensore trifocale combinano le visione delle due telecamere di infrarosso e le due telecamera di colore.

• Gli esperimenti fatti dagli autori certificano il maggior rendimento della metodologia multimodale del sensore trifocale invece di la metodologia monomodale.

• Queste esperimenti sonno stati fatti nelle sequenze di immagini di videosorveglianza.

Introduzione I

• Usando una combinazione di HOG nelle due caratteristiche (color e infrarosso) hanno creato un SVM per individuare persone all’interno de una scena.

• Hanno notato la differenza tra la grandezza della persona nella immagine e la profondità nella immagine

Essempio 2D di SVM (Support Vector Machines - Macchine a Vettori di Supporto)

Introduzione II

• Hanno assunto che le immagini delle telecamere possono essere trattati indipendentemente e anche combinati creando un solo output per analizzare.

• La sua valutazione finale ha dimostrato che il tensore trifocale (con la combinazione tra colore e infrarosso) ha un rendimento molto più soddisfacente per il riconoscimento de persone all’interno di una scena.

Ricerche collegate I

• Il campo della visione trifocale è molto nuovo e, per tanto, non ci sono molti articoli chi parlano di queste tipo di analisi.

• Zhang: Comparativa tra immagini di telecamere di colore e telecamere infrarossi di tipo monomodale per creare un SVM.

• Ran: Progetti con telecamare termale e de colore. Obiettivo, far vedere la possibilità di usare tecniche di analisi di immagini di colore a immagini infrarossi.

Ricerche collegate II

• Altri studi hanno esaminato il riconoscimento di persone come la fusione di immagine di colore e immagini infrarossi.

• Davis and Sharma hanno fatto un insieme di dati di video di colore e infrarosso. Questo insieme permette la comparazione pixel a pixel di tutti le immagine. Così, se può fare una omografia planare di confronto con le due tipi.

• Questi dati hanno permesso il sviluppo di algoritmi di combinazione tra colore e infrarossi.

Ricerche collegate III

• Tuttavia, la omografia planare per l'analisi delle immagini di colore e infrarossi è un po limitata, perché in quella supponiamo di potere allineare totalmente le due/tre immagini registrare (colore + infrarossi), ma a volte non è semplice.

• La migliore forma di registrare le immagini di colore e termale per analisi generale è steroimmagine che da conto della profondità e delle diversi prospettiva.

• Bertozzi: Ha disegnato una tetratelecamere per analizzare persone in telecamere di colore e termale. I risultati sono separati e dopo uniti secondo la sua posizione in 3D.

Ricerche collegate IV

• Gli autori dell’articolo hanno introdotto il fuoco trifocale.

• A traverso le estimazione de la profondità in modo monomodale se può registrare la seconda modalità con precisione usando il fuoco trifocale.

• Questo articolo amplia il campo multispettrale proposto in un altro studio, migliorando i metodi per combinare le due tipi di caratteristiche e facendo un detector di persone multispettrale.

Tensore trifocale vs Omografia

● Omografia: E tutto basato in un solo plano, quindi, le telecamere devono essere tutti in una posizione determinata per entrare nel stesso plano oppure solo possiamo analizzare un solo plano.

● Possiamo vedere come in omografia le persone sembrano molto lontani delle telecamere e della stessa scala

Tensore trifocale vs Omografia

● Tensore trifocale: Permette analizzare la immagine con diversi gradi di profondità e fa vedere chiaramente le diversi scali nelle persone.

● Se può registrare ogni singolo pixel di una immagini planare ed analizzarli.

● La variazione delle scale possono arrivare a una difficoltà maggiore per individuare la persona perché da più possibili candidati.

Tensore trifocale vs Omografia Sistema algoritmico

● Il obiettivo e studiare come il tensore trifocale affetta alle individuazione delle persone e le possibile falsi candidati.

● Per questo, si fa un sistema chi registra in modo multimodale e estrae le caratteristiche che servono per la individuazione.

Tensore trifocale vs OmografiaRegistrazione delle immagini

● Approccio di 4 telecamere, par stereo unimodal (colore o infrarossi) combinati con un secondo par di la seconda modalità.

● Se usa la estimazione delle disparità per registrare le pixel della terza immagine con il tensore trifocale – insieme di matrici che relazionano le corrispondenze tra le immagini.

● Il tensore trifocale può essere stimato minimizzando il errore algebrico nelle corrispondenze di punti.

Tensore trifocale vs OmografiaRegistrazione delle immagini

● Per fare il tensore sono necessari 7 corrispondenze di point-point-point.

● In pratica si usano molti di più corrispondenze per ridurre gli errori delle estimazione puntuali.

● Il risultato è scritto come segue:

Τ=[T1+T2+T3]Dove Ti è una matrice 3x3 della i-esima immaginne

● Qui, se possono determinare parametri della geometria 2D come matrici P (proiezione) e F(fondamentale) ed e.

Tensore trifocale vs OmografiaRegistrazione delle immagini

● Sia dato un punto x' ↔ x'' se può stimare il punto del tensore trifocale con a formula.

● Otteniamo punti della terza immagini

Tensore trifocale vs OmografiaAnnotation

● Una volta fata la registrazione dobbiamo fare la annotazione.

● Positivo e negativo. I mostri positivi si fanno con le sequenze di video. Le negativi possono essere generati dal posto dove non c'è la persona

● Si fa, tanto per il stero di colore come di infrarossi.

● Lo hanno fatto solo per le persone non occluse nella immagine.

Tensore trifocale vs OmografiaCaratterizzazione delle immagini

● Se debbi estrarre le caratteristiche delle immagini per differenziare tra positive e negative.

● Hanno scelto estrarre le caratteristiche HOG simile a Dalal e Triggs.

● Queste caratteristiche codificano la rilevanza di bordi in termini di orientamento e la posizione spaziale.

● Informazione in termini di XxYxΘ, dimensione di intervalli del istogramma de larghezza, altezza e gradiente di orientazione.

Tensore trifocale vs OmografiaCaratterizzazione delle immagini

● La combinazione di colori, infrarossi, e la disparità esegue l'alto nella valutazione.

● Questo è un risultato un po falsato perché il ROC se fa sol tanto con le parti delle immagini già annotati

● Quando se ha provato in un altra immagine nuova sono stato un risultato non tanto buono. In alcuni casi hanno avuto più falsi positivi che persone.

Tensore trifocale vs OmografiaCaratterizzazione delle immagini

● Questi errori possono darsi perché il HOG e ottimo per individuare oggetti prossimi ai bordi, quindi, in una immagine con persone vicini al fondo danno problemi.

● Lo che hanno fatto è modellare una persona per la sua dimensione media e hanno modellato la correlazione lineare tra la dimensione de la cassa di individuazione e la mediana della disparità al interno

Tensore trifocale vs OmografiaCaratterizzazione delle immagini

● La linea può essere parametrizatta come:

Ax + By + C = 0– La x e la larghezza dela immagine.

– La y è la disparità media.

● Per fare una cassa di contorno ottima calcoliamo la distanza ottima a questa linea:

Tensore trifocale vs OmografiaApprendimento e classificazione

● ΔL è un nuovo parametro che se bassa in un altra nuova proprietà fisica che combina le caratteristiche del HOG e le caratteristiche de disparità per fare una classifica comune.

● Loro usano HOG per il colore e SVM per gli infrarossi e poi fanno il croce tra queste per estimare la probabilità di avere una persona nella cassa (in una regione).

Erfc: funzione di errore complementareσ parametro di controllo deviazione standard del modellato gaussiano.

Tensore trifocale vs OmografiaApprendimento e classificazione

● La probabilità de classificazione finale è:

● Il fatto de avere la classificazione separata in due può essere vantaggioso perché se reduce il numero di cassa a studiare.

● Esempio: Se ho 100000 possibile casse, avró 10000 ad analizzare

Campo esperimentaleBanco di prova sperimentale e Acquisizione Immagine

● Sono due pari, uno di colore stereo e un altro di infrarossi

● Permette di avere Color Stereo, Infrared Stereo, Trifocal Color Stereo + Infrared (CSI), Trifocal Infrared Stereo + Color (ISC), and Tetravision approaches

● Ha una quadruple entrata di video e un allineatore di queste quattro.

● La calibrazione la hanno fato con il Matlab Camera Calibration Toolbox

Campo esperimentaleSet di dati e formazione

● Se hanno registrato 21 video (immagini slide 15), 19 per le annotazione e 2 di prova (le più complessi).

● L'analisi se ha fatto per un operatore umano.● Per cada sequenza se hanno fato il colore

stereo, trifocal CSI, stereo a infrarossi, e trifocale varianti della ISC dei dati originali utilizzando la generazione de disparità.

Campo esperimentaleSet di dati e formazione

● Annotation of color stereo and trifocal CSI data:– 1654 campioni positivi (6 to 46 pixels).

– Per cada positivo se cercano 10 negativi, finalmente se sono stati notati 22520. Problemi con regione dense e le scale più piccoli de persone.

● Annotation of infrared stereo and trifocal ISC data:

– 1425 campioni positivi (6 to 46 pixels)– 19533 negativi

Campo esperimentaleSet di dati e formazione

● Per formazione, se hanno ridimensionato le parti di colore e infrarossi a 24x60 pixels.

● Una dimensione di HOG di 6x15x8 è computata per cada parte di colore e infrarossi e se usa SVM con RBF (Radial Basis Function)

● Se usano sistema di croce per ottenere gli stimatori probabilistici per tutte quattro combinazione di colore e infrarossi.

● Hanno ottenuto una estimazione lineare per colore e infrarossi de la altura della cassa.

Valutazione esperimentale

● Le false positive sono stati perché la cassa no era su una persona oppure perché il classificatore non ha riconosciuto a la persona all'interno.

● Tutti esperimenti sono stati offline.● Per fare un analisi a tempo reale era

necessario una SVM a tempo reale.● Attualmente si se fa in tempo reale

Valutazione esperimentaleConfronto

● Soglia di probabilità di rilevamento è stato fissato al 80%, 85%, 90%, e il 95%.

Valutazione esperimentaleConfronto

● Probabilità di rilevamento è stato fissato al 90%

Valutazione esperimentaleConfronto

● Chiaramente, i due classificatori trifocale superano i classificatori singola modalità con un ampio margine

● Per un tasso di falsi positivi di uno per fotogramma, i classificatori multimodali aumentano il tasso di rilevamento di oltre il 45%, da 0,65 a quasi 0,95.

● Questo approccio trifocale è più adatto a rilevare pedoni rispetto alla classificazione indipendenti. Per una percentuale di falsi positivi di uno per frame, vediamo un aumento della rilevazione di quasi il 20%

Valutazione esperimentaleConfronto

● L'analisi in infrarossi hanno dato migliore risultati del di colore, questo può sembrare strano in un primo analisi, ma si spiega con il fatto de che a più densità, più difficoltà di individuazione:– Gli infrarossi hanno più densità nelle casse che c'è una persona, e

quindi e più facile avere casi positivi.

– A volte, nel colore il fondo ha un colore molto similare a le persone, e quindi ci sono più falsi positivi.

● Tuttavia, il caso contrario e vero, nel analisi SVM funziona meglio il colore.

● Ci aspettiamo che quando non se può registrare su infrarossi (nella notte) i risultati se assimilano alle sue analisi unimodali.

Valutazione esperimentaleAnalisi estesa di rivelatori trifocali

Valutazione esperimentaleAnalisi estesa di rivelatori trifocali

● Tasso complessivo di rilevamento del 92.15% con 0,606 falsi positivi per fotogramma.

● Tale coerenza enfatizza ulteriormente i vantaggi di utilizzare il quadro CSI trifocal.

Valutazione esperimentaleAnalisi estesa di rivelatori trifocali

● Il tasso di rilevamento risulta relativamente alto, abbiamo anche raggiunto un apparentemente alto tasso di falsi positivi del 0,606 falsi positivi per frame (FPP).

● I falsi positivi nelle immagini sono mostrate in giallo. ● I nostri analisi hanno dimostrato che la stragrande maggioranza dei falsi

positivi generati si trovano nelle aree indicate in questi esempi.● Obiettivo: Riqualificare la SVM di raggiungere un tasso di falsi positivi

inferiore.

Valutazione esperimentale Test in ambienti differenti

● Il classificatore basato nella disparità è stato riqualificato per tenere conto del cambiamento in funzione della disparità della dimensione de la cassa nella nuova prospettiva.

● Il trifocal CSI è in grado di rilevare con successo ogni persona senza falsi positivi, mentre il trifocal ISC classificatore rileva tutti, meno un solo pedonale, ancora una volta senza alcun falso positivo.

● No hanno modellato le altre oggetti della foto (arboli, erba..etc) sol tanto se ha usato il stesso modello di prima.

Valutazione esperimentale Test in ambienti differenti

Valutazione esperimentale Test in ambienti differenti

Valutazione esperimentale Test in ambienti differenti

● Possiamo vedere una nota diminuzione del tasso di rilevazione.

● Può essere per la classificazione de una immagine che non ha aiuto del classificatore allenato.

● Anche gli immagini hanno il doppio di persone e questo incrementa la possibilità della occlusione.

Valutazione esperimentale Detezione di filtrato temporale e puntamento

● Credono che questi tassi di rilevamento per fotogramma che otteno sono davvero il limite inferiore e che l'aumento delle prestazioni può venire dall'analisi temporale di rilevazioni del per-frame.

● Tutti falsi positivi sono stati per una mala elezione di marco o cassa che se corregge nelle seguenti analisi.

● Tutti gli errori possono essere considerati un errore di grandezza del marco.

Valutazione esperimentale Rilevazione di filtrato temporale e puntamento

● Qui si mostra una successione de immagini propria dell'analisi

● In cerchio di colore (rosso, blue verde e rosa) se evidenziano le vere positivi nella traiettoria e in cerchio gialli le falsi positivi.

● Se può vedere che con questo analisi trifocale se può ricostruire la sequenza de tutte le persone a anche la interazione tra oggetti

● Quindi, se guarda un sistema di sorveglianza abbastanza robusto e solido.

Conclusione I

● Hanno presentato una metodologia per analizzare in forma multimodale e multiprospettiva la immagini di sorveglianza.

● Incorporando un sistema di 4 telecamere (due telecamere di colore e due de infrarossi) mostrando un risultato più soddisfatto e completo dalle analisi anteriori unimodali.

● Hanno presentato un sistema algoritmico che combina probabilisticamente un SVM addestrato sulle caratteristiche HOG estratte da colori e immagini a infrarossi con un sensore basato sul rapporto tra dimensione delle persone e la profondità nella scena per creare un rilevatore in base disparità.

● Hanno addestrato il rilevatore per le 4 possibilità di: color stereo, infrared stereo, tetravision, and trifocal tensor configurations.

Conclusione II

● Dopo, hanno valutato il suo sistema e hanno visto che il tensore trifocale che combina le immagini di colore e infrarossi in una sola è molto più buono delle analisi monomodale. La valutazione dimostra un miglioramento molto considerabili delle prestazione è un sistema robusto.

● La configurazione trifocale e le tetratelecamere superano in rendimento a le sue caratteristiche monomodale.

● Anche le sue valutazione dimostrano che il sistema da buoni risultati su immagini di tipo generale e provvede robusti input per analisi posteriori.

top related