Download - Temu-Kembali Informasi 2019 · 2019-10-01 · Evaluasi Himpunan Retrieval Tak-Berperingkat •Precision dan recall saling tarik-ulur (trade off) –Presisi menurun karena jumlah dokumen

Temu-Kembali Informasi 201903A: Evaluasi Temu-Kembali

Husni

Husni.trunojoyo.ac.id

Pekan 05

Apa yang telah dipelajari…

User

results

Query RepDoc Rep (Index)

RankerIndexer

Doc Analyzer

Index

Crawler

(Query)

EvaluationFeedback

Indexed corpus

Ranking procedure

Research attention

2

Bing v.s. Google?

3

Rekap: Query Frasa

• Pencocokan posting secara umum

– Periksa kondisi kesetaraan dengan persyaratan pola posisi antara dua term query

• Misal: T2.pos-T1.pos = 1 (T1 harus langsung sebelum T2 dalam dokumen yang cocok)

– Query kedekatan: |T2.pos-T1.pos| ≤ k

128

34

2 4 8 16 32 64

1 2 3 5 8 13 21

Term1

Term2

memindai postings

4

Rekap: Koreksi Pengejaan

• Mentolerir Query yang salah eja

– “barck obama” -> “barack obama”

• Prinsip

– Dari berbagai alternatif ejaan yang benar dari query yang salah eja, pilih yang terdekat

– Dari berbagai alternatif ejaan yang benar dari query yang salah eja, pilih yang paling umum

5

Search Engine Mana Lebih Disuka? Bing atau Google?

• Apa kriteria penilaian Anda?

– Seberapa cepat responnya terhadap Query Anda?

– Berapa banyak dokumen yang dapat dikembalikan?

6

Search Engine Mana Lebih Disuka?Bing atau Google?

• Apa kriteria penilaian Anda?

– Dapatkah membetulkan kesalahan eja?

– Dapatkah menyarankan query terkait yang bagus?

7

Evaluasi Retrieval

• Kriteria evaluasi yang disebutkan di atas semuanya baik, tetapibukan esensi

– Tujuan dari suatu sistem IR

• Memenuhi kebutuhan informasi pengguna

– Kriteria ukuran kualitas inti

• “seberapa bagus suatu sistem memenuhi kebutuhan informasipenggunanya.” – wiki

• Sayangnya samar dan susah dieksekusi

8

Menghitung Ukuran Kualitas IR

• Kebutuhan informasi

– “suatu keinginan individu atau kelompok untuk menemukan dan memperoleh informasi untuk memenuhi kebutuhan sadar atautidak sadar” – wiki

– Dicerminkan oleh query pengguna

– Kategorisasi kebutuhan informasi

• Navigasi

• Informasi

• Transaksi

9

Menghitung Ukuran Kualitas IR

• Satisfaction: Kepuasan

– “pendapat pengguna tentang aplikasi komputer tertentu, yang mereka gunakan” – wiki

– Direfleksikan dengan

• Peningkatan hasil klik

• Kunjungan berulang / meningkat

• Relevansi hasil

10

Evaluasi IR Klasik

• Eksperimen Cranfield

– Pelopor kerja dan fondasi dalam evaluasi IR

– Hipotesis dasar

• Relevansi dokumen yang diambil adalah proxy yang baik untuk utilitassistem dalam memuaskan kebutuhan informasi pengguna

– Prosedur

• 1,398 abstrak artikel jurnal aerodynamics

• 225 query

• Penilaian relevansi lengkap dari semua pasangan (query, dokumen)

• Membandingkan sistem pengindeksan berbeda terhadap koleksi tersebut

11

Evaluasi IR Klasik

• Tiga elemen kunci untuk evaluasi IR

1. Koleksi dokumen

2. Rangkaian uji kebutuhan informasi, dapat diungkapkan sebagaiquery

3. Serangkaian penilaian relevansi, misal penilaian biner baik yang relevan atau tidak relevan untuk setiap pasangan query-dokumen

12

Relevansi Pencarian

• Kebutuhan informasi pengguna diterjemahkan ke dalam query

• Relevansi dinilai sehubungan dengan kebutuhan informasi, bukan query

– Misal kebutuhan informasi: “Kapan saya harus memperbarui SIM C saya?”

– Query: “Perpanjangan SIM C”

– Penilaian (judgement): apakah suatu dokumen berisi jawaban yang benar, misalnya “setiap 5 tahun”; bukan teks yang hanya berisi tigakata query tersebut.

13

Text REtrieval Conference (TREC)

• Evaluasi skala besar dari metodologi pencarian teks

– Sejak 1992, diselenggarakan oleh NIST

– Benchmark standar untuk kajian IR

– Berbagai koleksi evaluasi

• Web track

• Question answering track

• Cross-language track

• Microblog track

• Dan lainnya…

14

Tolok Ukur Publik: Corpora Test Umum

15

Metrik Evaluasi

• Bertujuan menjawab pertanyaan

– Apakah Google lebih baik daripada Bing?

– Metode ranking mana yang paling efektif?

– Akankah kita melaksanakan stemming atau stopword removal?

• Dibutuhkan metrik yang dapat diukur sehingga dengannya kitadapat membandingkan berbagai sistem IR

– Sebagai himpunan pengambilan tak berperingkat

– Sebagai hasil pengambilan berperingkat

16

Evaluasi Himpunan Retrieval Tak-Berperingkat

• Dalam sistem retrieval Boolean

– Presisi (precision): bagian dari dokumen yang diretrieve yang relevan, yaitu p(relevant|retrieved)

– Recall: bagian dari dokumen yang relevan yang diretrieve, yaitup(retrieved|relevant)

relevant nonrelevant

retrieved true positive (TP) false positive (FP)

not retrieved false negative (FN) true negative (TN)

𝑅 =𝑇𝑃

𝑇𝑃 + 𝐹𝑁Recall:

𝑃 =𝑇𝑃

𝑇𝑃 + 𝐹𝑃

Presisi:

17


• Precision dan recall saling tarik-ulur (trade off)

– Presisi menurun karena jumlah dokumen yang diambil meningkat(kecuali dalam ranking sempurna), sementara recall terusmeningkat

– Dua metrik ini menekankan perspektif yang berbeda dari sistem IR

• Presisi: lebih suka sistem yang mengambil lebih sedikit dokumen, tetapisangat relevan

• Recall: lebih suka sistem mengambil lebih banyak dokumen

18


• Merangkum precision dan recall menjadi satu nilai

– Untuk membandingkan sistem yang berbeda

– F-measure: rata-rata harmonik berbobot dari precision dan recall, 𝛼 menyeimbangkan trade-off

– Mengapa rerata harmonik?

• System1: P:0.53, R:0.36

• System2: P:0.01, R:0.99

𝐹 =1

𝛼1𝑃 + 1 − 𝛼

1𝑅

𝐹1 =2

1𝑃 +

1𝑅

Bobot sama antaraprecision dan recall

H A

0.429 0.445

0.019 0.500

19

Rekap: Evaluasi IR Klasik

• Tiga elemen kunci untuk evaluasi IR

1. Koleksi dokumen

2. Serangkaian uji kebutuhan informasi, dapat diwujudkan sebagaiquery

3. Sehimpunan penilaian (judgment) relevansi, misalnya asesmenbiner dari relevan atau tidak-relevan bagi setiap pasangan query-dokumen

20

Rekap: Evaluasi Hasil Retrieval Tak-Berperingkat

• Dalam sistem retrieval Boolean

– Precision: bagian dari dokumen yang diambil yang relevan, yaitup(relevant|retrieved)

– Recall: bagian dari dokumen yang relevan yang diambil, yaitup(retrieved|relevant)

relevant nonrelevant

retrieved true positive (TP) false positive (FP)

not retrieved false negative (FN) true negative (TN)

𝑅 =𝑇𝑃

𝑇𝑃 + 𝐹𝑁Recall:

𝑃 =𝑇𝑃

𝑇𝑃 + 𝐹𝑃

Precision:

21

Evaluasi Hasil Retrieval Berperingkat

• Hasil berperingkat adalah fitur inti dari sistem IR

– Presisi, recall dan ukuran-F adalah ukuran berbasis set yang tidakdapat nilai kualitas rankingnya

– Solusi: mengevaluasi presisi pada setiap titik recall

Sistem mana yang lebih baik?

x

precision

recallx

x

x

x

System1System2

x

x

x

xx

22

0,0

0,2

0,4

0,6

0,8

1,0

0,0 0,2 0,4 0,6 0,8 1,0

Pre

cis

ion

Recall

Kurva Precision-Recall

• Kurva bentuk gigi gergaji (sawtooth)

Presisi terinterpolasi: 𝑝𝑖𝑛𝑡𝑒𝑟𝑝 𝑟 = max

𝑟′≥𝑟𝑝(𝑟′)

presisi tertinggi diperoleh untuk level recall 𝑟′ ≥ 𝑟.

23

Evaluasi Hasil Retrieval Berperingkat

• Merangkum kinerja ranking dengan satu bilangan

– Relevansi biner

• Presisi rata-rata 11 titik terinterpolasi

• Precision@K (P@K)

• Mean Average Precision (MAP)

• Mean Reciprocal Rank (MRR)

– Relevansi banyak nilai

• Normalized Discounted Cumulative Gain (NDCG)

24

0

0,2

0,4

0,6

0,8

1

0 0,2 0,4 0,6 0,8 1

Pre

cis

ion

Recall

Sebelas Titik Presisi Rata-rata Terinterpolasi

• Pada 11 level recall [0,0.1.0.2,…, 1.0], hitung rata-rata aritmatika dari presisi yang diinterpolasi atas semua query

25

Precision@K

• Tetapkan ambang batas posisi peringkat K

• Abaikan semua dokumen dengan peringkat lebih rendah dari K

• Hitung presisi dalam top K dokumen yang diambil ini

– Misal

P@3 of 2/3

P@4 of 2/4

P@5 of 3/5

• Dengan cara yang sama kita punya Recall@K

RelevantNonrelevant

26

Mean Average Precision

• Perhatikan posisi ranking dari setiap dokumen yang relevan– Misal K1, K2, … KR

• Hitung P@K untuk setiap K1, K2, … KR

• Presisi rata-rata = rata-rata dari P@K itu– Contoh

• MAP adalah Mean of Average Precision lintas banyakquery/ranking

𝐴𝑣𝑔𝑃𝑟𝑒𝑐 =1

1+2

3+3

5/3

27

AvgPrec dari dua ranking

28

AvgPrecUntuk

Satu Query

MAP Untuk Sistem

Query 1, AvgPrec = (1.0+0.67+0.5+0.44+0.5)/5=0.62Query 2, AvgPrec = (0.5+0.4+0.43)/3=0.44

MAP = (0.62+0.44)/2=0.53

29

Metrik MAP

• Jika dokumen yang relevan tidak pernah diambil makadianggap presisi yang bersesuaian dengan dokumen yang relevan menjadi nol

• MAP rata-rata makro: setiap query dihitung sama rata

• MAP menganggap pengguna tertarik untuk menemukanbanyak dokumen yang relevan untuk setiap query

• MAP membutuhkan banyak penilaian relevansi dalamkoleksi teks

30

Mean Reciprocal Rank

• Mengukur efektivitas hasil berperingkat

– Misalkan pengguna hanya mencari satu dokumen yang relevan

• mencari fakta

• pencarian item telah dikenal

• Query navigasi

• Query auto completion

• Durasi pencarian ~ Ranking jawaban

– Mengukur upaya pengguna

31

Mean Reciprocal Rank

• Pertimbangkan posisi peringkat 𝐾, dari dokumen relevanpertama

• Reciprocal Rank = 1

𝐾

• MRR adalah RR rata-rata lintas banyak query

32

Selain Relevansi Biner

Fair

Bad

Good

Fair

Bad

Excellent

Fair

Bad

Good

Fair

Bad

Same P@6?!

RelevantNonrelevant

Same MAP?!

33

Selain Relevansi Biner

• Tingkat kualitas relevansi dokumen sehubungan dengan variasiquery yang diberikan

– Dokumen yang sangat relevan lebih bermanfaat daripada dokumenyang sedikit relevan

– Semakin rendah posisi peringkat dokumen yang relevan, semakintidak bermanfaat bagi pengguna, karena semakin kecilkemungkinannya untuk diperiksa

– Discounted Cumulative Gain

34

Kegunaan Kumulatif Berdiskon

• Menggunakan relevansi bertingkat sebagai ukuran kegunaanatau keuntungan (gain) dari memeriksa suatu dokumen

• Gain diakumulasi mulai dari peringkat atas dan didiskon pada peringkat bawah

• Diskon tipikal 1/log (rank)

– Dengan basis 2, diskon pada rank 4 adalah ½ dan pada rank 8 adalah1/3.

35

Discounted Cumulative Gain: DCG

Kegunaan Kumulatif Berdiskon

• DCG adalah total perolehan yang diakumulasikan pada posisi peringkat tertentu p:

• Formulasi alternatif:

– Metrik standar pada beberapa perusahaan web search

– Menekankan pada pengambilan dokumen sangat relevan

𝐷𝐶𝐺𝑝 = 𝑟𝑒𝑙1 +

𝑖=2

𝑝𝑟𝑒𝑙𝑖log2 𝑖

𝐷𝐶𝐺𝑝 =

𝑖=1

𝑝2𝑟𝑒𝑙𝑖 − 1

log2(1 + 𝑖)

Label relevansipada poisisi i

36

Keuntungan Kumulatif Berdiskon Dinormalisasi

• Normalisasi berguna untuk membedakan query dengan jumlahhasil relevan yang bervariasi

• Normalisasi DCG di peringkat n dengan nilai DCG di peringkat n dari ranking ideal

– Ranking ideal dicapai melalui pemeringkatan dokumen dengan label relevansinya

37

Contoh NDCG

i

Ground Truth Ranking Function1 Ranking Function2

Document Order

reliDocument

Orderreli

Document Order

reli

1 d5 4 d3 2 d5 4

2 d4 3 d4 3 d3 2

3 d3 2 d2 1 d4 3

4 d2 1 d5 4 d1 0

5 d1 0 d1 0 d2 1

NDCGGT=1.00 NDCGRF1=0.67 NDCGRF2=0.97

5 dokumen: d1, d2, d3, d4, d5

𝐷𝐶𝐺𝐺𝑇 =24−1

log2 2+

23−1

log2 3+

22−1

log2 4+21−1

log2 5+

20−1

log2 6= 21.35

𝐷𝐶𝐺𝑅𝐹1 =22−1

log2 2+

23−1

log2 3+

21−1

log2 4+24−1

log2 5+

20−1

log2 6= 14.38

𝐷𝐶𝐺𝑅𝐹2 =24−1

log2 2+

22−1

log2 3+

23−1

log2 4+20−1

log2 5+

21−1

log2 6= 20.78

Bagaimana dengan P@4, P@5, MAP dan MRR? 38

Apa yang Tersembunyi Dengan Query Rerata?

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Recall

Pre

cision

Figure from Doug Oard’s presentation, originally from Ellen Voorhees’ presentation39

Uji Signifikansi Statistik

• Seberapa yakin Anda bahwa perbedaan yang diamati tidakhanya dihasilkan dari Query tertentu yang dipilih?

System A

0.200.210.220.190.170.200.21

System B

0.400.410.420.390.370.400.41

Experiment 1Query

1234567

Average 0.20 0.40

System A

0.020.390.260.380.140.090.12

System B

0.760.070.170.310.020.910.56

Experiment 2Query

11121314151617

Average 0.20 0.4040

Pengetahuan Later Belakang

• p-value dalam uji statistik adalah probabilitas untukmemperoleh data se-ekstrem yang diamati, jika hipotesis null itu benar (mis., jika pengamatan benar-benar acak)

• Jika p-value lebih kecil dari tingkat signifikansi yang dipilih(), kita menolak hipotesis null (mis., Observasi tidak acak)

• Kita berusaha untuk menolak hipotesis null (kita berusahauntuk menunjukkan bahwa pengamatan adalah hasil acak), dan p-value begitu kecil adalah baik

4141

Tes Biasa Digunakan dalam Evaluasi IR

• Sign test (test masuk)– Hipotesis: median perbedaan bernilai nol antar sampel dari dua

distribusi kontinu

• Wilcoxon signed rank test (Uji ranking bertanda Wilcoxon)– Hipotesis: data dipasangkan dan berasal dari populasi yang sama

• Paired t-test (Uji-t berpasangan)– Hipotesis: perbedaan antara dua respons yang diukur pada unit statistik

yang sama memiliki nilai rata-rata nol

• One-tail v.s. two-tail? (Satu-ekor v.s. dua ekor?)– Jika tidak yakin, gunakan dua-ekor

42

Pengujian Signifikansi Statistik

System A

0.020.390.260.380.140.090.12

System B

0.760.070.170.310.020.910.56

Query

11121314151617

Average 0.20 0.40

Sign Test

+----++

p=0.9375

paired t-test

p=0.2927

+0.74-0.32-0.09-0.07-0.12+0.82+0.44

0

95% of outcomes

43

Rekap: Evaluasi Hasil Retrieval Berperingkat

• Hasil berperingkat merupakan fitur inti dari sistem IR

– Ukuran Precision, recall dan F-measure adalah ukuran berbasis set yang tidak dapat mengasses kualitas ranking

– Solusi: Evaluasi precision pada setiap titik recall

Sistem mana yang lebih baik?

x

precision

recallx

x

x

x

System1System2

x

x

x

xx

44

Rekap: Apa yang Disembunyikan Rerata Query?

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Recall

Pre

cision

Figure from Doug Oard’s presentation, originally from Ellen Voorhees’ presentation45

Di mana Mendapatkan Label Relevansi?

• Anotasi Manusia

– Pakar domain yang memiliki pemahaman yang lebih baik tentangtugas retrieval

• Skenario 1: annotator mencantumkan kebutuhan informasi, memformalkanke dalam query, dan menilai dokumen yang dikembalikan

• Skenario 2: diberikan query dan dokumen terkait, annotator menilairelevansinya dengan menyimpulkan kebutuhan informasi yang mendasarinya

46

Konsistensi Asesor

• Apakah ketidakkonsistenan penilai menjadi perhatian? – Anotator manusia bersifat idiosinkratik dan variabel

– Penilaian relevansi bersifat subyektif

• Studi sebagian besar menyimpulkan bahwa inkonsistensi tidakmempengaruhi perbandingan relatif dari sistem– Keberhasilan sistem IR bergantung pada seberapa baik sistem itu

memenuhi kebutuhan manusia yang istimewa ini

– Lesk & Salton (1968): penilai sebagian besar tidak setuju pada dokumen dengan peringkat lebih rendah, tetapi ukurannya lebihdipengaruhi oleh dokumen peringkat teratas

47

Mengukur Konsistensi Asesor

• Statistik kappa

– Suatu ukuran kesepakatan antara hakim

• 𝑃(𝐴) proporsi kali disepakati para hakim

• 𝑃(𝐸) proporsi kali hakim diharapkan menyetujui secara kebetulan

– 𝜅 = 1 jika dua hakim selalu sepakat (agree)

– 𝜅 = 0 jika dua hakim sepakat secara kebetulan (by chance)

– 𝜅 < 0 jika dua hakim selalu tidak sepakat (disagree)

𝜅 =𝑃 𝐴 − 𝑃(𝐸)

1 − 𝑃(𝐸)

48

Contoh Statistik kappa

Yes No Total

Yes 300 20 320

No 10 70 80

Total 310 90 400

judge 2 relevance

judge 1 relevance

𝑃 𝐴 =300 + 70

400= 0.925

𝑃 𝐸 =80 + 90

400 + 400

2

+320 + 310

400 + 400

2

= 0.21252 + 0.78782 = 0.665

𝜅 =𝑃 𝐴 − 𝑃(𝐸)

1 − 𝑃(𝐸)=0.925 − 0.665

1 − 0.665= 0.776

49

Mempersiapkan Koleksi Anotasi

• Anotasi manusia mahal dan makan waktu

– Tidak dapat memberikan anotasi lengkap dari corpus besar

– Solusi: pooling

• Relevansi dinilai lebih dari satu bagian koleksi yang terbentuk dari top k dokumen yang dikembalikan oleh sejumlah sistem IR yang berbeda

50

Apakah Pooling Bekerja?

• Penilaian tidak mungkin lengkap?

– Peringkat relatif di antara sistem tetap sama

• Bagaimana dengan dokumen di luar top-k?

– Peringkat relatif di antara sistem tetap sama

• Banyak kerja penelitian dapat dilakukan di sini

– Konstruksi pool yang efektif

– Kedalaman v. Keragaman

51

Pikir Ulang Evaluasi Retrieval

• Tujuan dari sistem IR

– Memuaskan kebutuhan informasi pengguna

• Kriteria ukuran kualitas inti

– “seberapa bagus sistem memenuhi kebutuhan informasipenggunanya.” – wiki

52

Apa yang Dipertimbangkan

• Kemampuan sistem untuk menyajikan semua dokumen yang relevan

– Tindakan yang digerakkan oleh recall

• Kemampuan sistem untuk menahan dokumen yang tidakrelevan

– Tindakan yang didorong oleh presisi

53

Tantang Asumsi dalam Evaluasi IR Klasik

• Asumsi 1

– Kepuasan = Relevansi Hasil

• Asumsi 2

– Relevansi = relevansi topikal independen

• Dokumen dinilai secara independen dan kemudian diberi peringkat (itulahcara kita mendapatkan peringkat yang ideal)

• Asumsi 3

– Penjelajahan berurutan dari atas ke bawah

54

Apa yang Belum Dipertimbangkan

• Bentuk fisik dari output

– User interface

• Upaya, intelektual atau fisik, dituntut dari pengguna

– Upaya pengguna saat menggunakan sistem

• Penelitian Bias IR menuju optimalisasi metrik relevansi-sentris

55

Apa Harus diketahui

• Kriteria inti untuk evaluasi IR

• Komponen dasar dalam evaluasi IR

• Metrik IR klasik

• Uji Statistika

• Kesepakatan Annotator

56

Bacaan Hari Ini

• Introduction to information retrieval

– Bab 8: Evaluation in information retrieval

57

Download - Temu-Kembali Informasi 2019 · 2019-10-01 · Evaluasi Himpunan Retrieval Tak-Berperingkat •Precision dan recall saling tarik-ulur (trade off) –Presisi menurun karena jumlah dokumen

Top Related