1. 数据集介绍
表1: BEIR 数据集介绍
Dataset Website BEIR-Name Queries Corpus Rel D/Q Download
MSMARCO Homepage msmarco 6,980 8.84M 1.1 Link
TREC-COVID Homepage trec-covid 50 171K 493.5 Link
NFCorpus Homepage nfcorpus 323 3.6K 38.2 Link
NQ Homepage nq 3,452 2.68M 1.2 Link
HotpotQA Homepage hotpotqa 7,405 5.23M 2.0 Link
FiQA-2018 Homepage fiqa 648 57K 2.6 Link
ArguAna Homepage arguana 1,406 8.67K 1.0 Link
Touche-2020 Homepage webis-touche2020 49 382K 19.0 Link
CQADupstack Homepage cqadupstack 13,145 457K 1.4 Link
Quora Homepage quora 10,000 523K 1.6 Link
DBPedia Homepage dbpedia-entity 400 4.63M 38.2 Link
SCIDOCS Homepage scidocs 1,000 25K 4.9 Link
FEVER Homepage fever 6,666 5.42M 1.2 Link
Climate-FEVER Homepage climate-fever 1,535 5.42M 3.0 Link
SciFact Homepage scifact 300 5K 1.1 Link

数据集目录结构:

BEIR-Name/ 
├── qrels/ 
│ └── test.tsv  #  query-id    corpus-id   score
├── corpus.jsonl  # {"_id": , "title": ,"text": , "metadata": } 
└── queries.jsonl  # {"_id": , "text": , "metadata": } 

2. 评价指标

信息检索的评价指标,包括Recall、Accuracy、Precision、MAP、MRR、NDCG等,在contriever中主要关注 Recall 和 NDCG,并针对 Top-k 个结果进行计算,即以 Recall@k 和 NDCG@k 作为评价指标。

给定一组查询 Q={q1,q2,,qn},和一组文档 D={d1,d2,,dm}。对于每个查询 q,检索模型会计算 qD 中每个文档的相关度值,即 s(q,D)={s(q,d1),s(q,d2),,s(q,dm)}

Recall@k

Recall@k=# retrq,k# relq Recall@k=1|Q|q=1|Q|# retrq,k# relq

NDCG@k:全称为 Normalize Discounted Cumulative Gain,其公式如下:

NDCG@k=1|Q|q=i|Q|DCGq@kIDCGq@k CG@k=ikreli DCG@k=i=1krelilog2(i+1)

注:由于 s(q,D) 中可能存在并列分数,但它们对应的相关性得分不一定相同,因此检索结果可能存在不同排序,这时 DCG 的计算结果也将不一致。故在 NDCG@k 实现过程中一个小 trick,即先对 doc_id 进行降序排列,确保 doc_id 顺序的一致性,这样实现的结果才会和 官方结果 一致

参考:


3. 实验结果

contriever提供了多个预训练模型,但我们只要使用在 CCnet 和 English Wikipedia 上无监督预训练得到的权重 facebook/contriever,完成下面这些 Dataset 上的实验即可。

表2: 实验结果








































































数据集信息 实验结果
Task Domain Dataset Queries Corpus nDCG @10 Recall @100 时耗
Bio-Medical Information Retrieval (IR) Bio-Medical Trec-COVID 50 171K
Bio-Medical NFCorpus 323 3.6K
Question Answering (QA) Finance FiQA-2018 648 57K
Argument Retrieval Misc. ArguAna 1,406 8.67K
Duplicate-Question Retrieval Quora Quora 10,000 523K
Citation-Prediction Scientific SCIDOCS 1,000 25K
Fact Checking Scientific SciFact 300 5K