1. 数据集介绍
表1: BEIR 数据集介绍
| Dataset | Website | BEIR-Name | Queries | Corpus | Rel D/Q | Download |
|---|---|---|---|---|---|---|
| MSMARCO | Homepage | msmarco |
6,980 | 8.84M | 1.1 | Link |
| TREC-COVID | Homepage | trec-covid |
50 | 171K | 493.5 | Link |
| NFCorpus | Homepage | nfcorpus |
323 | 3.6K | 38.2 | Link |
| NQ | Homepage | nq |
3,452 | 2.68M | 1.2 | Link |
| HotpotQA | Homepage | hotpotqa |
7,405 | 5.23M | 2.0 | Link |
| FiQA-2018 | Homepage | fiqa |
648 | 57K | 2.6 | Link |
| ArguAna | Homepage | arguana |
1,406 | 8.67K | 1.0 | Link |
| Touche-2020 | Homepage | webis-touche2020 |
49 | 382K | 19.0 | Link |
| CQADupstack | Homepage | cqadupstack |
13,145 | 457K | 1.4 | Link |
| Quora | Homepage | quora |
10,000 | 523K | 1.6 | Link |
| DBPedia | Homepage | dbpedia-entity |
400 | 4.63M | 38.2 | Link |
| SCIDOCS | Homepage | scidocs |
1,000 | 25K | 4.9 | Link |
| FEVER | Homepage | fever |
6,666 | 5.42M | 1.2 | Link |
| Climate-FEVER | Homepage | climate-fever |
1,535 | 5.42M | 3.0 | Link |
| SciFact | Homepage | scifact |
300 | 5K | 1.1 | Link |
数据集目录结构:
BEIR-Name/
├── qrels/
│ └── test.tsv # query-id corpus-id score
├── corpus.jsonl # {"_id": , "title": ,"text": , "metadata": }
└── queries.jsonl # {"_id": , "text": , "metadata": }
2. 评价指标
信息检索的评价指标,包括Recall、Accuracy、Precision、MAP、MRR、NDCG等,在contriever中主要关注 Recall 和 NDCG,并针对 Top-k 个结果进行计算,即以 Recall@k 和 NDCG@k 作为评价指标。
给定一组查询
Recall@k:
- 定义:对于给定的查询
,我们以 中得分最高的前 个文档作为检索结果, 旨在计算 检索结果中和查询 相关的文档数,占 文档集 中和查询 相关的文档数 的比值。 - 若以
作为 中所有和查询 相关的文档;以 作为检索结果中,真正和查询 相关的文档,则可得如下公式:
- 由于我们需要评估一组查询
,故对 单个查询 的 值进行求和取平均,得到最终公式如下所示:
NDCG@k:全称为 Normalize Discounted Cumulative Gain,其公式如下:
-
Gain:给定查询
和 文档集 , 和 中的每个文档 可评测出一个真实的相关性得分,即为Gain,这一组相关性得分通常用 进行表示。 -
CG(Cumulative Gain):将检索结果的相关性评分累加起来,不考虑检索结果的排序。如果指定
,则以 中得分最高的前 个文档作为检索结果,并只累计它们的相关性评分。这里以 作为 查询 和 检索结果中第 个文档 的 相关性分数
- DCG(Discounted Cumulative Gain):对CG的一种改进,通过引入位置折扣因子
来考虑检索结果的排序,给定 时,则有下式:
- IDCG(Ideal Discounted Cumulative Gain)::最理想的检索结果,即检索结果为
降序排列后的顺序,给定 时,则取降序排列后的 的前 个 gain 进行计算,计算公式同 DCG。
注:由于
参考:
- [1] 信息检索中的评价指标
- [2] 谈谈NDCG的计算
3. 实验结果
contriever提供了多个预训练模型,但我们只要使用在 CCnet 和 English Wikipedia 上无监督预训练得到的权重 facebook/contriever,完成下面这些 Dataset 上的实验即可。
表2: 实验结果
| 数据集信息 | 实验结果 | ||||||
|---|---|---|---|---|---|---|---|
| Task | Domain | Dataset | Queries | Corpus | nDCG @10 | Recall @100 | 时耗 |
| Bio-Medical Information Retrieval (IR) | Bio-Medical | Trec-COVID | 50 | 171K | |||
| Bio-Medical | NFCorpus | 323 | 3.6K | ||||
| Question Answering (QA) | Finance | FiQA-2018 | 648 | 57K | |||
| Argument Retrieval | Misc. | ArguAna | 1,406 | 8.67K | |||
| Duplicate-Question Retrieval | Quora | Quora | 10,000 | 523K | |||
| Citation-Prediction | Scientific | SCIDOCS | 1,000 | 25K | |||
| Fact Checking | Scientific | SciFact | 300 | 5K | |||