contriever-ir-course-assignment

1. 数据集介绍

表1： BEIR 数据集介绍

Dataset	Website	BEIR-Name	Queries	Corpus	Rel D/Q	Download
MSMARCO	Homepage	`msmarco`	6,980	8.84M	1.1	Link
TREC-COVID	Homepage	`trec-covid`	50	171K	493.5	Link
NFCorpus	Homepage	`nfcorpus`	323	3.6K	38.2	Link
NQ	Homepage	`nq`	3,452	2.68M	1.2	Link
HotpotQA	Homepage	`hotpotqa`	7,405	5.23M	2.0	Link
FiQA-2018	Homepage	`fiqa`	648	57K	2.6	Link
ArguAna	Homepage	`arguana`	1,406	8.67K	1.0	Link
Touche-2020	Homepage	`webis-touche2020`	49	382K	19.0	Link
CQADupstack	Homepage	`cqadupstack`	13,145	457K	1.4	Link
Quora	Homepage	`quora`	10,000	523K	1.6	Link
DBPedia	Homepage	`dbpedia-entity`	400	4.63M	38.2	Link
SCIDOCS	Homepage	`scidocs`	1,000	25K	4.9	Link
FEVER	Homepage	`fever`	6,666	5.42M	1.2	Link
Climate-FEVER	Homepage	`climate-fever`	1,535	5.42M	3.0	Link
SciFact	Homepage	`scifact`	300	5K	1.1	Link

数据集目录结构:

BEIR-Name/ 
├── qrels/ 
│ └── test.tsv  #  query-id    corpus-id   score
├── corpus.jsonl  # {"_id": , "title": ,"text": , "metadata": } 
└── queries.jsonl  # {"_id": , "text": , "metadata": }

2. 评价指标

信息检索的评价指标，包括Recall、Accuracy、Precision、MAP、MRR、NDCG等，在contriever中主要关注 Recall 和 NDCG，并针对 Top-k 个结果进行计算，即以 Recall@k 和 NDCG@k 作为评价指标。

给定一组查询 $Q = {q_{1}, q_{2}, \dots, q_{n}}$ ，和一组文档 $D = {d_{1}, d_{2}, \dots, d_{m}}$ 。对于每个查询 $q$ ，检索模型会计算 $q$ 和 $D$ 中每个文档的相关度值，即 $s (q, D) = {s (q, d_{1}), s (q, d_{2}), \dots, s (q, d_{m})}$

Recall@k：

定义：对于给定的查询 $q$ ，我们以 $s (q, D)$ 中得分最高的前 $k$ 个文档作为检索结果， $Recall@ k$ 旨在计算检索结果中和查询 $q$ 相关的文档数，占文档集 $D$ 中和查询 $q$ 相关的文档数的比值。
若以 $# {rel}_{q}$ 作为 $D$ 中所有和查询 $q$ 相关的文档；以 $# {retr}_{q, k}$ 作为检索结果中，真正和查询 $q$ 相关的文档，则可得如下公式：

Recall@ k = \frac{# {retr}_{q, k}}{# {rel}_{q}}

由于我们需要评估一组查询 $Q$ ，故对单个查询 $q$ 的 $Recall@ k$ 值进行求和取平均，得到最终公式如下所示：

Recall@ k = \frac{1}{| Q |} \sum_{q = 1}^{| Q |} \frac{# {retr}_{q, k}}{# {rel}_{q}}

NDCG@k：全称为 Normalize Discounted Cumulative Gain，其公式如下：

NDCG@ k = \frac{1}{| Q |} \sum_{q = i}^{| Q |} \frac{{DCG}_{q} @ k}{{IDCG}_{q} @ k}

Gain：给定查询 $q$ 和文档集 $D$ ， $q$ 和 $D$ 中的每个文档 $d_{i}$ 可评测出一个真实的相关性得分，即为Gain，这一组相关性得分通常用 $r e l = [g a i n_{1}, g a i n_{2}, \dots, g a i n_{m}]$ 进行表示。
CG(Cumulative Gain)：将检索结果的相关性评分累加起来，不考虑检索结果的排序。如果指定 $k$ ，则以 $s (q, D)$ 中得分最高的前 $k$ 个文档作为检索结果，并只累计它们的相关性评分。这里以 $r e l_{i}$ 作为查询 $q$ 和检索结果中第 $i$ 个文档的相关性分数

CG@ k = \sum_{i}^{k} r e l_{i}

DCG(Discounted Cumulative Gain)：对CG的一种改进，通过引入位置折扣因子 $\frac{1}{l o g_{2} (i + 1)}$ 来考虑检索结果的排序，给定 $k$ 时，则有下式：

DCG@ k = \sum_{i = 1}^{k} \frac{{rel}_{i}}{\log_{2} (i + 1)}

IDCG(Ideal Discounted Cumulative Gain):：最理想的检索结果，即检索结果为 $r e l$ 降序排列后的顺序，给定 $k$ 时，则取降序排列后的 $r e l$ 的前 $k$ 个 gain 进行计算，计算公式同 DCG。

注：由于 $s (q, D)$ 中可能存在并列分数，但它们对应的相关性得分不一定相同，因此检索结果可能存在不同排序，这时 DCG 的计算结果也将不一致。故在 NDCG@k 实现过程中一个小 trick，即先对 doc_id 进行降序排列，确保 doc_id 顺序的一致性，这样实现的结果才会和官方结果一致

参考：

[1] 信息检索中的评价指标
[2] 谈谈NDCG的计算

3. 实验结果

contriever提供了多个预训练模型，但我们只要使用在 CCnet 和 English Wikipedia 上无监督预训练得到的权重 facebook/contriever，完成下面这些 Dataset 上的实验即可。

表2： 实验结果

数据集信息					实验结果
Task	Domain	Dataset	Queries	Corpus	nDCG @10	Recall @100	时耗
Bio-Medical Information Retrieval (IR)	Bio-Medical	Trec-COVID	50	171K
Bio-Medical Information Retrieval (IR)	Bio-Medical	NFCorpus	323	3.6K
Question Answering (QA)	Finance	FiQA-2018	648	57K
Argument Retrieval	Misc.	ArguAna	1,406	8.67K
Duplicate-Question Retrieval	Quora	Quora	10,000	523K
Citation-Prediction	Scientific	SCIDOCS	1,000	25K
Fact Checking	Scientific	SciFact	300	5K