Watheq/doc2query_scored_queries

Name: Watheq/doc2query_scored_queries
Creator: Watheq
Published: 2024-05-07 08:34:42
License: 暂无描述

Hugging Face2024-05-07 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Watheq/doc2query_scored_queries

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含与特定研究相关的评分文件，这些文件用于评估由T5-based Doc2Query模型生成的扩展查询的相关性。评分是通过ELECTRA交叉编码器获得的，用于衡量文档文本与其扩展查询之间的相关性。数据集的结构为.jsonl文件，每行包含三个字段：[id, predicted_queries, querygen_score]。文件分别对应MSMarco-v1、DBPedia、Quora、Robust04、TREC-COVID和Touché-2020数据集。

提供机构：

Watheq

原始信息汇总

数据集概述

数据集内容

本数据集包含针对MSMARCO-v1段落数据集和BEIR基准子集的生成查询评分文件。使用基于T5的Doc2Query模型生成扩展查询，并通过ELECTRA交叉编码器获取文档文本与其扩展查询之间的相关性评分。

文件结构

所有文件均为.jsonl格式，每行包含三个字段：["id", "predicted_queries","querygen_score"]。每个文件包含文档ID、扩展查询及其对应的ELECTRA相关性评分。

数据集匹配

msmarco-v1-80-scored-queries.jsonl: 对应MSMARCO-v1数据集。
dbpedia-20-scored-queries.jsonl: 对应DBPedia数据集。
quora-20-scored-queries.jsonl: 对应Quora数据集。
robust04-20-scored-queries.jsonl: 对应Robust04数据集。
trec-covid-20-scored-queries.jsonl: 对应TREC-COVID数据集。
webis-touche2020-20-scored-queries.jsonl: 对应Touché-2020数据集。

数据来源

MSMARCO-v1的80个扩展查询复制自此仓库。
BEIR基准的20个扩展查询复制自此仓库。

引用信息

若使用本数据集，请引用以下文献： plaintext @inproceedings{mansour2024revisit, title={Revisiting Document Expansion and Filtering for Effective First-Stage Retrieval}, author={Mansour, Watheq and Zhuang, Shengyao and Zhuang, Guido and Mackenzie, Joel}, booktitle = {Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval}, year={2024}, publisher = {Association for Computing Machinery}, series = {SIGIR 24} }

许可证

本数据集遵循CC-BY-4.0许可证。

5,000+

优质数据集

54 个

任务类型

进入经典数据集