you tubequery+
DESCRIPTION
YouTubeQuery+ is a didactic experiment about query expansion on top YouTubeTRANSCRIPT
YouTubeQuery+Giovanni Gaglione
Tesina per il corso di Intelligenza Artificiale2010-2011
Università Roma3http://goo.gl/x54Wh
Obiettivi
• Semplice meccanismo di Query Expansion• Applicato alle query sottoposte a
YouTube
Query Expansion
• E’ un meccanismo di espansione di una query per migliorare le performance di un sistema di information retrieval
• Vari approcci (manuale, interattiva, automatica; basati sui sinonimi, sulle cooccorrenze, etc.)
• Approccio utilizzato in YouTubeQuery+– Basato sull’analisi delle co-occorrenze presenti all’interno del
profilo utente– Profilo utente concepito come informazioni e meta-informazioni
dei video che un utente ha visto su YouTube– Le cooccorrenze sono state calcolate sul campo keyword di ogni
video YouTube visto dall’utente
Architettura di YouTubeQuery+
• Lato Client: plugin per browser Chrome– Aggiorna il profilo utente– Fornisce all’utente una interfaccia attraverso cui
poter fare ricerca tra i video YouTube con il meccanismo di query expansion
• Lato Server: WebApp distribuita su server GoogleAppEngine, scritta in python secondo il framework AppEngine
La Chrome extension (1)
La Chrome extension (1)
• Viene selezionato l’id dall’url del browser• Viene fatta una chiamata, lato client, alle YouTube
API per estrarre qualche breve informazione circa il video– Viene estratto in particolare il titolo del brano per
mostrarlo nella notifica data all’utente– Ma potrebbe essere estratta qualsiasi altra informazione
del video• Viene fatta una richiesta POST al server per
notificare l’avvenuta visione del video YouTube
La WebApp
La WebApp: in breve
• Ricevuta una richiesta dal client di notifica di un video viene aggiornato il profilo utente– Vengono estratte, mediante le YouTube API, tutte
le informazioni e meta-informazioni sul video– Su tali informazioni viene fatto il calcolo delle co-
occorrenze (per ora solo delle keyword) e aggiornato il database
– Viene aggiornata la classifica delle keyword utilizzando l’approccio ChiSquare
Chrome extension (2)
• La virgola attiva la ricerca delle cooccorrenze
• Le cooccorrenze possono essere aggiunte alla query
facendoci click sopra
Chrome extension (2)
• Appena l’utente inserisce una keyword della query– Il browser plugin esegue una richiesta al server
per ottenere le co-occorrenze associate alla keyword appena inserita
– Il browser plugin mostra le co-occorrenze che maggiormente co-occorrono
– L’utente, tramite 1click, può selezionare le co-occorrenze per aggiungerle alla query
Risultati
• L’approccio utilizzato presenta il problema del cold start, che si può protrarre anche a lungo– Non sempre si riescono a suggerire all’utente termini di query
expansion– Necessario un profilo utente molto vasto (numerose visioni di
video YouTube)• Le cooccorrenze restituite durante la query expansion
risultano essere poco efficaci nella ricerca di titoli di video– La ricerca delle cooccorrenze per l’estensione della query
andrebbe estesa all’intero database e non solo al profilo utente
Spunti di miglioramento
• Estendere il calcolo delle co-occorrenze non solo alle keyword associate ad un video YouTube ma anche ad altre meta-informazioni (descrizione, categoria, etc.)
• Introdurre un approccio collaborativo• Utilizzare fonti di informazioni esterne (cfr. profilo
Facebook, etc.)
Ulteriori informazioni
• URL del progetto: http://yqueryplus.appspot.com• Bibliografia– http://code.google.com/appengine/docs/python– http://code.google.com/chrome/extensions/index.html– Keyword Extraction from a Single Document using word
co-occurence statistical information – Y. Matsuo, M. Ishizuka
– Tesi «Social Tube: un sistema per la ricerca personalizzata dei video in YouTube» di Salvatore Conte