agi2005 - nada.kth.se fileatmosfär, kamerans placering, optik, bildsensor etc etc. stor datamängd...
TRANSCRIPT
Page 1
Datorseendebaserade människa-datorgränssnitt Exempel på tillämpningar och tekniker
Lars Bretzner
Centre for User Oriented IT Design (CID)och
Computational Vision and Active Perception Lab (CVAP)NADA/KTH
• Bakgrund, introduktion
• Datorseendebaserade gränssnitt:• Helkroppsposer och rörelser• Huvud- och ögonrörelser• Handgester
Innehåll
Bygger på datoriserad analys av bilder från en eller flera kameror som filmar användaren
Har blivit en intressant möjlighet p.g.a.• Framsteg inom datoriserad bildanalys• Snabbare (och billigare) datorer• Billigare (och fler) kameror av bra kvalitet
Datorseendebaserade gränssnitt:Bakgrund
Fördelar:• Användaren behöver ingen utrustning för
interaktion• Billigt – ofta standardkameror • Flexibilitet – samma kamera,olika
interaktionssätt
Nackdelar:• Komplicerad teknik, i de flesta fall är
tekniken ej ännu mogen för marknaden
Datorseendebaserade gränssnitt
Automatisk tolkning av bilder, t.ex igenkänning av föremål, människor eller händelser, för bl.a navigering, övervakning, medicinska tillämpningar, fjärranalys (satellit o flygfoto), MMI, bildsökning, robotar etc.
Aktivt forskningsområde sedan 1960-70
Stort uppsving under senare delen av 90-talet och framåt pga allt snabbare datorer
Datorseende - Bildanalys
Page 2
Varför är det svårt?
Bildinnehållet (pixlarna) bestäms av en mängd parametrar: 3D-formen hos föremålen, materialegenskaper, belysning (frekvens, placering), atmosfär, kamerans placering, optik, bildsensor etc etc.
Stor datamängd att hantera:>100000 pixlar=bytes per färgkanal (R,G,B) i varje bild,
ofta 10-60 bilder/sekund
Datorseende - Bildanalys
Hur representera/modellera världen för att hantera alla tänkbara situationer...?
Tills vidare: Begränsa problemdomänen t.ex• Kontrollerade belysningsförhållanden• Kända avstånd kamera-scen• Enkla scener• Fåtal objekt/händelser att känna igen• ...
Datorseende - Bildanalys
Detektion av stora kroppsdelar och/eller deras rörelser, typiskt armar, ben, torso och huvud.
Exempel på tillämpningar:• Övervakning• Navigering i VR-miljöer• Spel
Helkroppsposer och -rörelser
Enklast: Hitta stora rörelser i hela bilden, kombinera med enkla antaganden om kroppsposition.
Exempel: ”Ghost in the Cave”, TMH, KTH
Helkroppsrörelser
Detektion av stora rörelser kan även kombineras med hudfärgsdetektion och borttagning av statisk bakgrund.Exempel: Sony Eye Toy till Playstation 2
Helkroppsrörelser
Smart visuell feedback: användaren inuti spelet
För att bestämma kroppsposen kan enkel 3D-modell av kroppen (torso,huvud,armar,ben) matchas mot bilddata.Med två kameror fås djupinformation i scenen.
Helkroppsposer och -rörelser
Ex. MIT AI lab
Page 3
Kroppsposerna i 3D kan användas för interaktion, t.ex navigering i VR-miljö.
• Fördelar:- Bättre noggrannhet i rörelsedetektion- Kroppsposer möjliggör rikare interaktion
• Nackdelar:- Komplexa beräkningar ty många frihetgrader- Känsligt för belysning, klädsel, bakgrund- Kräver två eller flera kameror
Helkroppsposer och -rörelser
Ex. MIT AI lab
Endast en kamera: Kroppsposer och rörelser i 3Dbetydligt svårare.
Ingen djupinfo och ofta skymda kroppsdelargör att gissningar om posen ofta måste göras baserade på statistik från vanliga kroppsrörelser.
Helkroppsposer och -rörelser
Ex. CVAP/NADA/KTH
Mätning av huvudposition samt orientering och/eller blickvektor.
Exempel på tillämpningar:• Uppmärksamhetsmätningar
- Intresseområden i bilder, på websidor etc.- Attentive interfaces (uppmärksamhetskänsliga)
• Trötthetsmätningar• Dialogsystem
- Ja-nickar/Nej-skakningar- Turtagning
Huvud- och ögonrörelser
• Relativt gammalt område, många kommersiella system. • En eller flera kameror.• Ofta IR-belysning och kamerafilter för att
minimera känsligheten för yttre ljusförhållanden.
Huvud- och ögonrörelser
Ex. Smart Eye AB
Teknik I: 1. Hitta ansiktet i bilden. 2. Hitta detaljer, särdrag, i ansiktet (ögon, ögonvrå,
mungipor..).3. Anpassa 3D-modell av huvudet till bildpunkterna
-> huvudposition och orientering4. Hitta iris, pupiller, ögonlock -> blickvektor
Huvud- och ögonrörelser
Teknik I, prestanda:Två eller flera kameror med VGA upplösning, Huvudorientering ca 1 grad,Blickvektor ca 3-5 grader ~ 5-8 cm på 1 m.
Fördelar:- Både huvudpose och blickvektor.- Stora huvud- och ögonrörelser möjliga.Nackdelar:- Problem med glasögon och vissa ansiktstyper.- Otillräcklig blicknoggrannhet för vissa tillämpningar.
Huvud- och ögonrörelser
Page 4
Teknik II: 1. Hitta ögonen (pupillerna) i bilden med IR-reflexer
från ögonbotten. 2. Hitta glintar, dvs reflexer i hornhinnan från IR-
ljuskällor. 3. Beräkna ögonlobens 3D-position från glintarna.4. Ögonlob+pupillposition -> blickvektor
Huvud- och ögonrörelser
Teknik II, prestanda:Blickvektor ca 1 grad ~ 1.5-2 cm på 1 m.
Fördelar:- Tillräcklig noggrannhet för de flesta fall.- Okänslig för olika ansiktstyper.Nackdelar:- Glintberoende: Endast mindre ögonrörelser
möjliga i normalfallet.- Mäter ej huvudpose.
Huvud- och ögonrörelser
Exempel: Uppmärksamhetsmätning, fixeringar
Huvud- och ögonrörelser
Ex. Tobii AB
Exempel: Attentive interfaces, gränssnitt som reagerar då de blir betraktade.
Huvud- och ögonrörelser
Ex. Queen’s Univ.
Exempel: Attentive interfaces forts, svara i telefonen
Huvud- och ögonrörelser
Ex. Queen’s Univ.
Läpprörelser –för förbättrad talförståelse, även datortalpedagog
Ansiktsigenkänning –kommersiella produkter för säkerhetstillämpningar och underhållning (t.ex i Sonys robothundar)
Huvud- och ögonrörelser: Övrigt
Ansiktsuttryck -känslogränssnitt, s.k. affective interfaces, enkel variant i Logitechs webcam, snart även i 3G-mobiler
Ex. OKI, Japan
Page 5
Handgester
Medvetna handgester för kontroll av och/eller kommunikation med datoriserad utrustning.
Varför handgester?
•Vi är vana att använda händerna för interaktion
•Många naturliga gester, t.ex. pekgester
•Hög rörlighet ger flexibilitet
•Möjligt att detektera utan behov av datormöss, handskar etc.
Handgester
Exempel på gester:
- Gester som direkt identifierar en intresseregion (t.ex pekgester), eller som specificerar ett kvantitativt värde.- Gester som ges betydelsen av kontrollkommandon.- Kombinationer.
Tillämpningsområden:
• Kontroll och instruktioner av mekaniska system, robotar.• Komplettera/ersätt datormöss och mekaniska tangentbord i lämpliga
situationer.• Interaktion med visualiseringssystem och virtuella miljöer som CAD-miljöer
och datorspel.• Kontrollera hemelektronik, t.ex som fjärrkontroll för TV och video, ljusdimmer
etc.• ...
Handgester
Färgsegmentering: Hudfärg relativt väldefinierad i färgrymden
Särdragsextraktion: Hörn, linjer, blobbar, åsar på olika skalor
3D-Geometri: 3D-rörelse från särdragens rörelse över tiden
Formmodellering: Kombinera särdragen för att representera form
Formigenkänning: Finn den mest sannolika modellen och positionen
Blob- och åsdetektion med automatiskt skalval: Exempel
De 20 starkaste blob- och ås-svaren
Handmodell: Särdragsextraktion
Handmodell: Särdragshierarki över multipla skalor
Hierarki av stabila, dominerande särdrag (handflata, fingrar, fingertoppar)
ModelltillståndX=(x,y,s,α,l,x’,y’,α’)
(position,skala,orientering,pose,dynamiska parametrar)
Handdetektion: Matcha model mot data med partikelfilter
Hypotesfördelning över tiden
Page 6
Kombination av färg och forminformation
Partikelfilter hittar de modellparametrar har högst sannolikhet
Exempel DrawBoard:Handposer styr ritprogram
Ex. CVAP/NADA/KTH
Problem/frågeställningar
Detektion:Handen generellt svår att modellera, många frihetsgrader, hög
deformerbarhet.Vyoberoende?Personberoende variationer i gesters utseende.Komplexa scener; mycket rörelse, mycket bildinformation. Varierande belysningsförhållanden.Realtidskrav.
Interaktion:
>>>>Vilka gester går att detektera i vilka situationer?
>>>>Vilka gester är bekväma att använda i vilka situationer?>>>>Vilka gester är lätta att komma ihåg?
Exempel: Kontroll av hemelektronik
TV och belysning styrs med handposer.
Ex. CID/NADA/KTH
Handposer
Enbart handposer ger begränsad skalbarhet, en stor mängd handposer skulle med stor sannolikhet innebära:
• Detektionsproblem• Svårigheter att utföra• Svårigheter att komma ihåg• ...etc.
Kombination av gester och menyer för multi-funktionskontroll
Ex. CID/NADA/KTH
Page 7
Marking- och Flow-menyer för gestgränsnitt
-En kombination av rörelser upp/ner/vänster/höger bestämmer menyvalet-Kan memoreras, endast två poser behövs!
Traditionell marking menu
Flow menu-mindre rörelser,återvänder till
ursprungspositionen
Pekgester för informationsåtkomst
Enkel formbaserad detektion av fingertoppar mot statisk bakgrund.
Pekgester för åtkomst av informationslager över valfritt objekt.
Skapar interaktiva ytor utan behov av elektriska installationer.
Möjlighet i ömtåliga miljöer och platser utsatta för hårt slitage och vandalism.
Ex. CID/NADA/KTH
Projektor-kamerasystem för ”virtuella pekskärmar”
Användaren interagerar med projektionen via t.ex. pekgester.
I princip kan vilken plan yta som helst utnyttjas.
Intressant alternativ till pekskärmar i känsliga miljöer och platser med hårt slitage och/eller risk för
vandalisering.
Visuell feedback ökar transparensen, användaren förstår bättre vad som händer och kan korrigera fel.
Ex. CID/NADA/KTH
Projektor-kamerasystem för ”virtuella pekskärmar”
Exempel: IBM – styrbart projektor-kamerasystem
Stor flexibilitet. Detektionsproblem när användaren skymmer projektor/kamera,och vid stora vinklar.
Projektor-kamerasystem för ”virtuella pekskärmar”
Exempel: CLIPS/IMAG/INRIA
Relativt ny teknik med uppsving under senaste åren.
Fördelar:Ingen speciell utrustning för interaktion, bara egna kroppen. Billigt. Flexibelt. Stor potential.
Nackdelar:Komplicerad, generellt ej mogen teknik. Känslig för belysning, bakgrund, avstånd m.m.
Datorseendebaserade gränssnitt:Kort sammanfattning
Page 8
Helkropp:3D svårt, speciellt med bara en kamera. Enklare tekniker baserade på rörelse mot statisk bakgrund. Få kommersiella produkter.
Datorseendebaserade gränssnitt:Kort sammanfattning
Huvud- och ögonrörelser:Etablerade tekniker, många kommersiella produkter för uppmärk-samhetsmätningar, de flesta med IR.
Handgester:3D svårt ty många frihetsgrader. Ofta vyberoende tekniker med fåtal handposer inkl. pekgester. Ännu inga kommersiella produkter(?), men på gång.Visuell feedback ofta bra sätt att öka transparensen, kan visa relationer användare-objekt, användaren kan lättare lära sig gräns-snittet.