查全率是什么意思詞義解釋來源:辭書
1:查全率(recall rate)是評(píng)估檢索成效的一項(xiàng)指標(biāo)又稱召回率。在資訊檢索系統(tǒng)中系統(tǒng)找出相關(guān)資料的筆數(shù)與文件庫中應(yīng)有的相關(guān)資料總筆數(shù)的比值稱為查全率。例如:假設(shè)在某一次檢索需求中相關(guān)文件的總篇數(shù)應(yīng)該有50筆而在系統(tǒng)回傳的100筆結(jié)果中只有20筆相關(guān)文件則此次檢索的查全率為20/50=0.4或是40%。查全率可以用來了解系統(tǒng)找回所有相關(guān)資料的能力或是系統(tǒng)遺漏相關(guān)資料的情形。根據(jù)上述定義在大多數(shù)的情況下查全率都不易獲得。針對(duì)某次檢索需求想知道系統(tǒng)中應(yīng)有的相關(guān)文件總筆數(shù)必須將檢索系統(tǒng)中所有的文件每一篇都經(jīng)人工判斷過才能得知。檢索系統(tǒng)中的文件動(dòng)輒上萬篇甚至上百萬篇一篇篇判斷下去成本非常驚人。因此在求取系統(tǒng)的查全率時(shí)常以便宜措施來近似系統(tǒng)中應(yīng)該有的相關(guān)文件總篇數(shù)。最常用的方式是針對(duì)同一個(gè)查詢需求以M種不同的檢索技術(shù)或系統(tǒng)分別找出前N篇文件取得最多M*N篇文件做相關(guān)判斷。這種作法的合理性是假設(shè):不被任何檢索技術(shù)與系統(tǒng)找出來的文件都認(rèn)為其與該次檢索需求不相關(guān)因而不用再進(jìn)行人工判斷。與原先的作法相較只判斷這M*N篇文件可以大幅降低求取查全率的成本。跟查全率非常相關(guān)的概念是查準(zhǔn)率其為系統(tǒng)找出相關(guān)資料的筆數(shù)與系統(tǒng)傳回資料筆數(shù)的比值。在衡量系統(tǒng)檢索成效時(shí)查全率與查準(zhǔn)率是一起并用的單獨(dú)檢視其中一項(xiàng)指標(biāo)并無意義。例如假設(shè)資料庫內(nèi)有文件10000篇就某一個(gè)檢索主題其中應(yīng)有的相關(guān)文件有100篇若系統(tǒng)僅查詢出1筆資料且此資料是相關(guān)的則其查準(zhǔn)率為100%但此時(shí)系統(tǒng)漏掉了99篇相關(guān)文件。同理若系統(tǒng)將資料庫里所有的文件都當(dāng)作查詢結(jié)果回覆使用者則必然涵蓋其中的100篇相關(guān)文件因而其查全率為100%但此時(shí)系統(tǒng)查出9900篇不相關(guān)的資料浪費(fèi)使用者檢視結(jié)果的時(shí)間。查全率的取得成本雖高因有上述的理由仍是進(jìn)行嚴(yán)謹(jǐn)?shù)臋z索成效比較時(shí)不可或缺的指標(biāo)。查全率與查準(zhǔn)率一起并用的方式有數(shù)種詳見查準(zhǔn)率辭條。在某些資訊檢索的任務(wù)中相關(guān)文件應(yīng)有的總筆數(shù)可能非常稀少只有一筆、二筆。例如在問答系統(tǒng)(question answering systems)中詢問「孫中山卒于何年?」系統(tǒng)傳回的回答應(yīng)該只有公元1925或是1925年是相關(guān)的其他皆非。此時(shí)系統(tǒng)的查全率很容易出現(xiàn)只有0或是1的極端數(shù)值不利于系統(tǒng)的成效比較。因此遂有「相關(guān)文件排名倒數(shù)平均」或是「平均倒數(shù)率」(mean reciprocal rate簡(jiǎn)稱MRR)的指標(biāo)提出。亦即評(píng)估這些系統(tǒng)時(shí)不僅以一道或少量題目來評(píng)估而是N道題目如N=500、N=1000等。將查詢結(jié)果中相關(guān)文件首次出現(xiàn)的排序名次加以倒數(shù)再加總所有題目的這些倒數(shù)后取平均值即為MRR指標(biāo)的數(shù)值。
|