macavaney/d2q-msmarco-passage-scores-monot5
收藏Doc2Query monoT5 Relevance Scores for msmarco-passage
数据集概述
- 名称: Doc2Query monoT5 Relevance Scores for
msmarco-passage - 来源数据集:
msmarco-passage - 标签:
- document-expansion
- doc2query--
- 任务类别:
- text-retrieval
- 任务ID:
- document-retrieval
- 语言创建者: machine-generated
- 注释创建者: no-annotation
数据集描述
该数据集提供了预计算的查询相关性分数,用于与Doc2Query--一起使用。生成的查询来自macavaney/d2q-msmarco-passage,并使用castorini/monot5-base-msmarco进行评分。
使用方法
该数据集主要用于Doc2Query--索引管道中。可以使用pyterrier_doc2query包进行安装和使用。
安装
bash pip install git+https://github.com/terrierteam/pyterrier_doc2query
可能还需要以下附加包: bash pip install git+https://github.com/terrierteam/pyterrier_pisa # 用于索引/检索 pip install git+https://github.com/terrierteam/pyterrier_t5 # 用于重现实验
示例代码
python import pyterrier as pt ; pt.init() from pyterrier_pisa import PisaIndex from pyterrier_doc2query import QueryScoreStore, QueryFilter
store = QueryScoreStore.from_repo(https://huggingface.co/datasets/macavaney/d2q-msmarco-passage-scores-monot5) index = PisaIndex(path/to/index) pipeline = store.query_scorer(limit_k=40) >> QueryFilter(t=store.percentile(70)) >> index
dataset = pt.get_dataset(irds:msmarco-passage) pipeline.index(dataset.get_corpus_iter())
直接使用数据集
python store.lookup(100)
{querygen: ..., querygen_store: ...}
for record in store: pass
重现实验
可以使用以下管道重现实验: python import pyterrier as pt ; pt.init() from pyterrier_t5 import MonoT5ReRanker from pyterrier_doc2query import Doc2QueryStore, QueryScoreStore, QueryScorer
doc2query_generator = Doc2QueryStore.from_repo(https://huggingface.co/datasets/macavaney/d2q-msmarco-passage).generator() store = QueryScoreStore(path/to/store) pipeline = doc2query_generator >> QueryScorer(MonoT5ReRanker()) >> store
dataset = pt.get_dataset(irds:msmarco-passage) pipeline.index(dataset.get_corpus_iter())
注意:此过程将花费较长时间,因为它为数据集中的每个文档计算80个生成查询的相关性分数。



