macavaney/d2q-msmarco-passage-scores-monot5

Name: macavaney/d2q-msmarco-passage-scores-monot5
Creator: macavaney
Published: 2022-12-18 20:13:58
License: 暂无描述

Hugging Face2022-12-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/macavaney/d2q-msmarco-passage-scores-monot5

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集提供了预计算的查询相关性分数，用于与`msmarco-passage`数据集一起使用。生成的查询来自`macavaney/d2q-msmarco-passage`，并使用`castorini/monot5-base-msmarco`进行评分。该数据集的主要用途是在Doc2Query--索引管道中使用，并且可以通过`pyterrier_doc2query`包进行安装和使用。

提供机构：

macavaney

原始信息汇总

Doc2Query monoT5 Relevance Scores for `msmarco-passage`

数据集概述

名称: Doc2Query monoT5 Relevance Scores for msmarco-passage
来源数据集: msmarco-passage
标签:
- document-expansion
- doc2query--
任务类别:
- text-retrieval
任务ID:
- document-retrieval
语言创建者: machine-generated
注释创建者: no-annotation

数据集描述

该数据集提供了预计算的查询相关性分数，用于与Doc2Query--一起使用。生成的查询来自macavaney/d2q-msmarco-passage，并使用castorini/monot5-base-msmarco进行评分。

使用方法

该数据集主要用于Doc2Query--索引管道中。可以使用pyterrier_doc2query包进行安装和使用。

安装

bash pip install git+https://github.com/terrierteam/pyterrier_doc2query

可能还需要以下附加包： bash pip install git+https://github.com/terrierteam/pyterrier_pisa # 用于索引/检索 pip install git+https://github.com/terrierteam/pyterrier_t5 # 用于重现实验

示例代码

python import pyterrier as pt ; pt.init() from pyterrier_pisa import PisaIndex from pyterrier_doc2query import QueryScoreStore, QueryFilter

store = QueryScoreStore.from_repo(https://huggingface.co/datasets/macavaney/d2q-msmarco-passage-scores-monot5) index = PisaIndex(path/to/index) pipeline = store.query_scorer(limit_k=40) >> QueryFilter(t=store.percentile(70)) >> index

dataset = pt.get_dataset(irds:msmarco-passage) pipeline.index(dataset.get_corpus_iter())

直接使用数据集

python store.lookup(100)

{querygen: ..., querygen_store: ...}

for record in store: pass

重现实验

可以使用以下管道重现实验： python import pyterrier as pt ; pt.init() from pyterrier_t5 import MonoT5ReRanker from pyterrier_doc2query import Doc2QueryStore, QueryScoreStore, QueryScorer

doc2query_generator = Doc2QueryStore.from_repo(https://huggingface.co/datasets/macavaney/d2q-msmarco-passage).generator() store = QueryScoreStore(path/to/store) pipeline = doc2query_generator >> QueryScorer(MonoT5ReRanker()) >> store

dataset = pt.get_dataset(irds:msmarco-passage) pipeline.index(dataset.get_corpus_iter())

注意：此过程将花费较长时间，因为它为数据集中的每个文档计算80个生成查询的相关性分数。

5,000+

优质数据集

54 个

任务类型

进入经典数据集