Temu-Kembali Informasi 201903A: Evaluasi Temu-Kembali
Husni
Husni.trunojoyo.ac.id
Pekan 05
Apa yang telah dipelajari…
User
results
Query RepDoc Rep (Index)
RankerIndexer
Doc Analyzer
Index
Crawler
(Query)
EvaluationFeedback
Indexed corpus
Ranking procedure
Research attention
2
Bing v.s. Google?
3
Rekap: Query Frasa
• Pencocokan posting secara umum
– Periksa kondisi kesetaraan dengan persyaratan pola posisi antara dua term query
• Misal: T2.pos-T1.pos = 1 (T1 harus langsung sebelum T2 dalam dokumen yang cocok)
– Query kedekatan: |T2.pos-T1.pos| ≤ k
128
34
2 4 8 16 32 64
1 2 3 5 8 13 21
Term1
Term2
memindai postings
4
Rekap: Koreksi Pengejaan
• Mentolerir Query yang salah eja
– “barck obama” -> “barack obama”
• Prinsip
– Dari berbagai alternatif ejaan yang benar dari query yang salah eja, pilih yang terdekat
– Dari berbagai alternatif ejaan yang benar dari query yang salah eja, pilih yang paling umum
5
Search Engine Mana Lebih Disuka? Bing atau Google?
• Apa kriteria penilaian Anda?
– Seberapa cepat responnya terhadap Query Anda?
– Berapa banyak dokumen yang dapat dikembalikan?
6
Search Engine Mana Lebih Disuka?Bing atau Google?
• Apa kriteria penilaian Anda?
– Dapatkah membetulkan kesalahan eja?
– Dapatkah menyarankan query terkait yang bagus?
7
Evaluasi Retrieval
• Kriteria evaluasi yang disebutkan di atas semuanya baik, tetapibukan esensi
– Tujuan dari suatu sistem IR
• Memenuhi kebutuhan informasi pengguna
– Kriteria ukuran kualitas inti
• “seberapa bagus suatu sistem memenuhi kebutuhan informasipenggunanya.” – wiki
• Sayangnya samar dan susah dieksekusi
8
Menghitung Ukuran Kualitas IR
• Kebutuhan informasi
– “suatu keinginan individu atau kelompok untuk menemukan dan memperoleh informasi untuk memenuhi kebutuhan sadar atautidak sadar” – wiki
– Dicerminkan oleh query pengguna
– Kategorisasi kebutuhan informasi
• Navigasi
• Informasi
• Transaksi
9
Menghitung Ukuran Kualitas IR
• Satisfaction: Kepuasan
– “pendapat pengguna tentang aplikasi komputer tertentu, yang mereka gunakan” – wiki
– Direfleksikan dengan
• Peningkatan hasil klik
• Kunjungan berulang / meningkat
• Relevansi hasil
10
Evaluasi IR Klasik
• Eksperimen Cranfield
– Pelopor kerja dan fondasi dalam evaluasi IR
– Hipotesis dasar
• Relevansi dokumen yang diambil adalah proxy yang baik untuk utilitassistem dalam memuaskan kebutuhan informasi pengguna
– Prosedur
• 1,398 abstrak artikel jurnal aerodynamics
• 225 query
• Penilaian relevansi lengkap dari semua pasangan (query, dokumen)
• Membandingkan sistem pengindeksan berbeda terhadap koleksi tersebut
11
Evaluasi IR Klasik
• Tiga elemen kunci untuk evaluasi IR
1. Koleksi dokumen
2. Rangkaian uji kebutuhan informasi, dapat diungkapkan sebagaiquery
3. Serangkaian penilaian relevansi, misal penilaian biner baik yang relevan atau tidak relevan untuk setiap pasangan query-dokumen
12
Relevansi Pencarian
• Kebutuhan informasi pengguna diterjemahkan ke dalam query
• Relevansi dinilai sehubungan dengan kebutuhan informasi, bukan query
– Misal kebutuhan informasi: “Kapan saya harus memperbarui SIM C saya?”
– Query: “Perpanjangan SIM C”
– Penilaian (judgement): apakah suatu dokumen berisi jawaban yang benar, misalnya “setiap 5 tahun”; bukan teks yang hanya berisi tigakata query tersebut.
13
Text REtrieval Conference (TREC)
• Evaluasi skala besar dari metodologi pencarian teks
– Sejak 1992, diselenggarakan oleh NIST
– Benchmark standar untuk kajian IR
– Berbagai koleksi evaluasi
• Web track
• Question answering track
• Cross-language track
• Microblog track
• Dan lainnya…
14
Tolok Ukur Publik: Corpora Test Umum
15
Metrik Evaluasi
• Bertujuan menjawab pertanyaan
– Apakah Google lebih baik daripada Bing?
– Metode ranking mana yang paling efektif?
– Akankah kita melaksanakan stemming atau stopword removal?
• Dibutuhkan metrik yang dapat diukur sehingga dengannya kitadapat membandingkan berbagai sistem IR
– Sebagai himpunan pengambilan tak berperingkat
– Sebagai hasil pengambilan berperingkat
16
Evaluasi Himpunan Retrieval Tak-Berperingkat
• Dalam sistem retrieval Boolean
– Presisi (precision): bagian dari dokumen yang diretrieve yang relevan, yaitu p(relevant|retrieved)
– Recall: bagian dari dokumen yang relevan yang diretrieve, yaitup(retrieved|relevant)
relevant nonrelevant
retrieved true positive (TP) false positive (FP)
not retrieved false negative (FN) true negative (TN)
𝑅 =𝑇𝑃
𝑇𝑃 + 𝐹𝑁Recall:
𝑃 =𝑇𝑃
𝑇𝑃 + 𝐹𝑃
Presisi:
17
Evaluasi Himpunan Retrieval Tak-Berperingkat
• Precision dan recall saling tarik-ulur (trade off)
– Presisi menurun karena jumlah dokumen yang diambil meningkat(kecuali dalam ranking sempurna), sementara recall terusmeningkat
– Dua metrik ini menekankan perspektif yang berbeda dari sistem IR
• Presisi: lebih suka sistem yang mengambil lebih sedikit dokumen, tetapisangat relevan
• Recall: lebih suka sistem mengambil lebih banyak dokumen
18
Evaluasi Himpunan Retrieval Tak-Berperingkat
• Merangkum precision dan recall menjadi satu nilai
– Untuk membandingkan sistem yang berbeda
– F-measure: rata-rata harmonik berbobot dari precision dan recall, 𝛼 menyeimbangkan trade-off
– Mengapa rerata harmonik?
• System1: P:0.53, R:0.36
• System2: P:0.01, R:0.99
𝐹 =1
𝛼1𝑃 + 1 − 𝛼
1𝑅
𝐹1 =2
1𝑃 +
1𝑅
Bobot sama antaraprecision dan recall
H A
0.429 0.445
0.019 0.500
19
Rekap: Evaluasi IR Klasik
• Tiga elemen kunci untuk evaluasi IR
1. Koleksi dokumen
2. Serangkaian uji kebutuhan informasi, dapat diwujudkan sebagaiquery
3. Sehimpunan penilaian (judgment) relevansi, misalnya asesmenbiner dari relevan atau tidak-relevan bagi setiap pasangan query-dokumen
20
Rekap: Evaluasi Hasil Retrieval Tak-Berperingkat
• Dalam sistem retrieval Boolean
– Precision: bagian dari dokumen yang diambil yang relevan, yaitup(relevant|retrieved)
– Recall: bagian dari dokumen yang relevan yang diambil, yaitup(retrieved|relevant)
relevant nonrelevant
retrieved true positive (TP) false positive (FP)
not retrieved false negative (FN) true negative (TN)
𝑅 =𝑇𝑃
𝑇𝑃 + 𝐹𝑁Recall:
𝑃 =𝑇𝑃
𝑇𝑃 + 𝐹𝑃
Precision:
21
Evaluasi Hasil Retrieval Berperingkat
• Hasil berperingkat adalah fitur inti dari sistem IR
– Presisi, recall dan ukuran-F adalah ukuran berbasis set yang tidakdapat nilai kualitas rankingnya
– Solusi: mengevaluasi presisi pada setiap titik recall
Sistem mana yang lebih baik?
x
precision
recallx
x
x
x
System1System2
x
x
x
xx
22
0,0
0,2
0,4
0,6
0,8
1,0
0,0 0,2 0,4 0,6 0,8 1,0
Pre
cis
ion
Recall
Kurva Precision-Recall
• Kurva bentuk gigi gergaji (sawtooth)
Presisi terinterpolasi: 𝑝𝑖𝑛𝑡𝑒𝑟𝑝 𝑟 = max
𝑟′≥𝑟𝑝(𝑟′)
presisi tertinggi diperoleh untuk level recall 𝑟′ ≥ 𝑟.
23
Evaluasi Hasil Retrieval Berperingkat
• Merangkum kinerja ranking dengan satu bilangan
– Relevansi biner
• Presisi rata-rata 11 titik terinterpolasi
• Precision@K (P@K)
• Mean Average Precision (MAP)
• Mean Reciprocal Rank (MRR)
– Relevansi banyak nilai
• Normalized Discounted Cumulative Gain (NDCG)
24
0
0,2
0,4
0,6
0,8
1
0 0,2 0,4 0,6 0,8 1
Pre
cis
ion
Recall
Sebelas Titik Presisi Rata-rata Terinterpolasi
• Pada 11 level recall [0,0.1.0.2,…, 1.0], hitung rata-rata aritmatika dari presisi yang diinterpolasi atas semua query
25
Precision@K
• Tetapkan ambang batas posisi peringkat K
• Abaikan semua dokumen dengan peringkat lebih rendah dari K
• Hitung presisi dalam top K dokumen yang diambil ini
– Misal
P@3 of 2/3
P@4 of 2/4
P@5 of 3/5
• Dengan cara yang sama kita punya Recall@K
RelevantNonrelevant
26
Mean Average Precision
• Perhatikan posisi ranking dari setiap dokumen yang relevan– Misal K1, K2, … KR
• Hitung P@K untuk setiap K1, K2, … KR
• Presisi rata-rata = rata-rata dari P@K itu– Contoh
• MAP adalah Mean of Average Precision lintas banyakquery/ranking
𝐴𝑣𝑔𝑃𝑟𝑒𝑐 =1
1+2
3+3
5/3
27
AvgPrec dari dua ranking
28
AvgPrecUntuk
Satu Query
MAP Untuk Sistem
Query 1, AvgPrec = (1.0+0.67+0.5+0.44+0.5)/5=0.62Query 2, AvgPrec = (0.5+0.4+0.43)/3=0.44
MAP = (0.62+0.44)/2=0.53
29
Metrik MAP
• Jika dokumen yang relevan tidak pernah diambil makadianggap presisi yang bersesuaian dengan dokumen yang relevan menjadi nol
• MAP rata-rata makro: setiap query dihitung sama rata
• MAP menganggap pengguna tertarik untuk menemukanbanyak dokumen yang relevan untuk setiap query
• MAP membutuhkan banyak penilaian relevansi dalamkoleksi teks
30
Mean Reciprocal Rank
• Mengukur efektivitas hasil berperingkat
– Misalkan pengguna hanya mencari satu dokumen yang relevan
• mencari fakta
• pencarian item telah dikenal
• Query navigasi
• Query auto completion
• Durasi pencarian ~ Ranking jawaban
– Mengukur upaya pengguna
31
Mean Reciprocal Rank
• Pertimbangkan posisi peringkat 𝐾, dari dokumen relevanpertama
• Reciprocal Rank = 1
𝐾
• MRR adalah RR rata-rata lintas banyak query
32
Selain Relevansi Biner
Fair
Bad
Good
Fair
Bad
Excellent
Fair
Bad
Good
Fair
Bad
Same P@6?!
RelevantNonrelevant
Same MAP?!
33
Selain Relevansi Biner
• Tingkat kualitas relevansi dokumen sehubungan dengan variasiquery yang diberikan
– Dokumen yang sangat relevan lebih bermanfaat daripada dokumenyang sedikit relevan
– Semakin rendah posisi peringkat dokumen yang relevan, semakintidak bermanfaat bagi pengguna, karena semakin kecilkemungkinannya untuk diperiksa
– Discounted Cumulative Gain
34
Kegunaan Kumulatif Berdiskon
• Menggunakan relevansi bertingkat sebagai ukuran kegunaanatau keuntungan (gain) dari memeriksa suatu dokumen
• Gain diakumulasi mulai dari peringkat atas dan didiskon pada peringkat bawah
• Diskon tipikal 1/log (rank)
– Dengan basis 2, diskon pada rank 4 adalah ½ dan pada rank 8 adalah1/3.
35
Discounted Cumulative Gain: DCG
Kegunaan Kumulatif Berdiskon
• DCG adalah total perolehan yang diakumulasikan pada posisi peringkat tertentu p:
• Formulasi alternatif:
– Metrik standar pada beberapa perusahaan web search
– Menekankan pada pengambilan dokumen sangat relevan
𝐷𝐶𝐺𝑝 = 𝑟𝑒𝑙1 +
𝑖=2
𝑝𝑟𝑒𝑙𝑖log2 𝑖
𝐷𝐶𝐺𝑝 =
𝑖=1
𝑝2𝑟𝑒𝑙𝑖 − 1
log2(1 + 𝑖)
Label relevansipada poisisi i
36
Keuntungan Kumulatif Berdiskon Dinormalisasi
• Normalisasi berguna untuk membedakan query dengan jumlahhasil relevan yang bervariasi
• Normalisasi DCG di peringkat n dengan nilai DCG di peringkat n dari ranking ideal
– Ranking ideal dicapai melalui pemeringkatan dokumen dengan label relevansinya
37
Contoh NDCG
i
Ground Truth Ranking Function1 Ranking Function2
Document Order
reliDocument
Orderreli
Document Order
reli
1 d5 4 d3 2 d5 4
2 d4 3 d4 3 d3 2
3 d3 2 d2 1 d4 3
4 d2 1 d5 4 d1 0
5 d1 0 d1 0 d2 1
NDCGGT=1.00 NDCGRF1=0.67 NDCGRF2=0.97
5 dokumen: d1, d2, d3, d4, d5
𝐷𝐶𝐺𝐺𝑇 =24−1
log2 2+
23−1
log2 3+
22−1
log2 4+21−1
log2 5+
20−1
log2 6= 21.35
𝐷𝐶𝐺𝑅𝐹1 =22−1
log2 2+
23−1
log2 3+
21−1
log2 4+24−1
log2 5+
20−1
log2 6= 14.38
𝐷𝐶𝐺𝑅𝐹2 =24−1
log2 2+
22−1
log2 3+
23−1
log2 4+20−1
log2 5+
21−1
log2 6= 20.78
Bagaimana dengan P@4, P@5, MAP dan MRR? 38
Apa yang Tersembunyi Dengan Query Rerata?
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Recall
Pre
cision
Figure from Doug Oard’s presentation, originally from Ellen Voorhees’ presentation39
Uji Signifikansi Statistik
• Seberapa yakin Anda bahwa perbedaan yang diamati tidakhanya dihasilkan dari Query tertentu yang dipilih?
System A
0.200.210.220.190.170.200.21
System B
0.400.410.420.390.370.400.41
Experiment 1Query
1234567
Average 0.20 0.40
System A
0.020.390.260.380.140.090.12
System B
0.760.070.170.310.020.910.56
Experiment 2Query
11121314151617
Average 0.20 0.4040
Pengetahuan Later Belakang
• p-value dalam uji statistik adalah probabilitas untukmemperoleh data se-ekstrem yang diamati, jika hipotesis null itu benar (mis., jika pengamatan benar-benar acak)
• Jika p-value lebih kecil dari tingkat signifikansi yang dipilih(), kita menolak hipotesis null (mis., Observasi tidak acak)
• Kita berusaha untuk menolak hipotesis null (kita berusahauntuk menunjukkan bahwa pengamatan adalah hasil acak), dan p-value begitu kecil adalah baik
4141
Tes Biasa Digunakan dalam Evaluasi IR
• Sign test (test masuk)– Hipotesis: median perbedaan bernilai nol antar sampel dari dua
distribusi kontinu
• Wilcoxon signed rank test (Uji ranking bertanda Wilcoxon)– Hipotesis: data dipasangkan dan berasal dari populasi yang sama
• Paired t-test (Uji-t berpasangan)– Hipotesis: perbedaan antara dua respons yang diukur pada unit statistik
yang sama memiliki nilai rata-rata nol
• One-tail v.s. two-tail? (Satu-ekor v.s. dua ekor?)– Jika tidak yakin, gunakan dua-ekor
42
Pengujian Signifikansi Statistik
System A
0.020.390.260.380.140.090.12
System B
0.760.070.170.310.020.910.56
Query
11121314151617
Average 0.20 0.40
Sign Test
+----++
p=0.9375
paired t-test
p=0.2927
+0.74-0.32-0.09-0.07-0.12+0.82+0.44
0
95% of outcomes
43
Rekap: Evaluasi Hasil Retrieval Berperingkat
• Hasil berperingkat merupakan fitur inti dari sistem IR
– Ukuran Precision, recall dan F-measure adalah ukuran berbasis set yang tidak dapat mengasses kualitas ranking
– Solusi: Evaluasi precision pada setiap titik recall
Sistem mana yang lebih baik?
x
precision
recallx
x
x
x
System1System2
x
x
x
xx
44
Rekap: Apa yang Disembunyikan Rerata Query?
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Recall
Pre
cision
Figure from Doug Oard’s presentation, originally from Ellen Voorhees’ presentation45
Di mana Mendapatkan Label Relevansi?
• Anotasi Manusia
– Pakar domain yang memiliki pemahaman yang lebih baik tentangtugas retrieval
• Skenario 1: annotator mencantumkan kebutuhan informasi, memformalkanke dalam query, dan menilai dokumen yang dikembalikan
• Skenario 2: diberikan query dan dokumen terkait, annotator menilairelevansinya dengan menyimpulkan kebutuhan informasi yang mendasarinya
46
Konsistensi Asesor
• Apakah ketidakkonsistenan penilai menjadi perhatian? – Anotator manusia bersifat idiosinkratik dan variabel
– Penilaian relevansi bersifat subyektif
• Studi sebagian besar menyimpulkan bahwa inkonsistensi tidakmempengaruhi perbandingan relatif dari sistem– Keberhasilan sistem IR bergantung pada seberapa baik sistem itu
memenuhi kebutuhan manusia yang istimewa ini
– Lesk & Salton (1968): penilai sebagian besar tidak setuju pada dokumen dengan peringkat lebih rendah, tetapi ukurannya lebihdipengaruhi oleh dokumen peringkat teratas
47
Mengukur Konsistensi Asesor
• Statistik kappa
– Suatu ukuran kesepakatan antara hakim
• 𝑃(𝐴) proporsi kali disepakati para hakim
• 𝑃(𝐸) proporsi kali hakim diharapkan menyetujui secara kebetulan
– 𝜅 = 1 jika dua hakim selalu sepakat (agree)
– 𝜅 = 0 jika dua hakim sepakat secara kebetulan (by chance)
– 𝜅 < 0 jika dua hakim selalu tidak sepakat (disagree)
𝜅 =𝑃 𝐴 − 𝑃(𝐸)
1 − 𝑃(𝐸)
48
Contoh Statistik kappa
Yes No Total
Yes 300 20 320
No 10 70 80
Total 310 90 400
judge 2 relevance
judge 1 relevance
𝑃 𝐴 =300 + 70
400= 0.925
𝑃 𝐸 =80 + 90
400 + 400
2
+320 + 310
400 + 400
2
= 0.21252 + 0.78782 = 0.665
𝜅 =𝑃 𝐴 − 𝑃(𝐸)
1 − 𝑃(𝐸)=0.925 − 0.665
1 − 0.665= 0.776
49
Mempersiapkan Koleksi Anotasi
• Anotasi manusia mahal dan makan waktu
– Tidak dapat memberikan anotasi lengkap dari corpus besar
– Solusi: pooling
• Relevansi dinilai lebih dari satu bagian koleksi yang terbentuk dari top k dokumen yang dikembalikan oleh sejumlah sistem IR yang berbeda
50
Apakah Pooling Bekerja?
• Penilaian tidak mungkin lengkap?
– Peringkat relatif di antara sistem tetap sama
• Bagaimana dengan dokumen di luar top-k?
– Peringkat relatif di antara sistem tetap sama
• Banyak kerja penelitian dapat dilakukan di sini
– Konstruksi pool yang efektif
– Kedalaman v. Keragaman
51
Pikir Ulang Evaluasi Retrieval
• Tujuan dari sistem IR
– Memuaskan kebutuhan informasi pengguna
• Kriteria ukuran kualitas inti
– “seberapa bagus sistem memenuhi kebutuhan informasipenggunanya.” – wiki
52
Apa yang Dipertimbangkan
• Kemampuan sistem untuk menyajikan semua dokumen yang relevan
– Tindakan yang digerakkan oleh recall
• Kemampuan sistem untuk menahan dokumen yang tidakrelevan
– Tindakan yang didorong oleh presisi
53
Tantang Asumsi dalam Evaluasi IR Klasik
• Asumsi 1
– Kepuasan = Relevansi Hasil
• Asumsi 2
– Relevansi = relevansi topikal independen
• Dokumen dinilai secara independen dan kemudian diberi peringkat (itulahcara kita mendapatkan peringkat yang ideal)
• Asumsi 3
– Penjelajahan berurutan dari atas ke bawah
54
Apa yang Belum Dipertimbangkan
• Bentuk fisik dari output
– User interface
• Upaya, intelektual atau fisik, dituntut dari pengguna
– Upaya pengguna saat menggunakan sistem
• Penelitian Bias IR menuju optimalisasi metrik relevansi-sentris
55
Apa Harus diketahui
• Kriteria inti untuk evaluasi IR
• Komponen dasar dalam evaluasi IR
• Metrik IR klasik
• Uji Statistika
• Kesepakatan Annotator
56
Bacaan Hari Ini
• Introduction to information retrieval
– Bab 8: Evaluation in information retrieval
57