five

Watheq/doc2query_scored_queries

收藏
Hugging Face2024-05-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Watheq/doc2query_scored_queries
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含与特定研究相关的评分文件,这些文件用于评估由T5-based Doc2Query模型生成的扩展查询的相关性。评分是通过ELECTRA交叉编码器获得的,用于衡量文档文本与其扩展查询之间的相关性。数据集的结构为.jsonl文件,每行包含三个字段:[id, predicted_queries, querygen_score]。文件分别对应MSMarco-v1、DBPedia、Quora、Robust04、TREC-COVID和Touché-2020数据集。

该数据集包含与特定研究相关的评分文件,这些文件用于评估由T5-based Doc2Query模型生成的扩展查询的相关性。评分是通过ELECTRA交叉编码器获得的,用于衡量文档文本与其扩展查询之间的相关性。数据集的结构为.jsonl文件,每行包含三个字段:[id, predicted_queries, querygen_score]。文件分别对应MSMarco-v1、DBPedia、Quora、Robust04、TREC-COVID和Touché-2020数据集。
提供机构:
Watheq
原始信息汇总

数据集概述

数据集内容

本数据集包含针对MSMARCO-v1段落数据集和BEIR基准子集的生成查询评分文件。使用基于T5的Doc2Query模型生成扩展查询,并通过ELECTRA交叉编码器获取文档文本与其扩展查询之间的相关性评分。

文件结构

所有文件均为.jsonl格式,每行包含三个字段:["id", "predicted_queries","querygen_score"]。每个文件包含文档ID、扩展查询及其对应的ELECTRA相关性评分。

数据集匹配

  • msmarco-v1-80-scored-queries.jsonl: 对应MSMARCO-v1数据集。
  • dbpedia-20-scored-queries.jsonl: 对应DBPedia数据集。
  • quora-20-scored-queries.jsonl: 对应Quora数据集。
  • robust04-20-scored-queries.jsonl: 对应Robust04数据集。
  • trec-covid-20-scored-queries.jsonl: 对应TREC-COVID数据集。
  • webis-touche2020-20-scored-queries.jsonl: 对应Touché-2020数据集。

数据来源

  • MSMARCO-v1的80个扩展查询复制自此仓库
  • BEIR基准的20个扩展查询复制自此仓库

引用信息

若使用本数据集,请引用以下文献: plaintext @inproceedings{mansour2024revisit, title={Revisiting Document Expansion and Filtering for Effective First-Stage Retrieval}, author={Mansour, Watheq and Zhuang, Shengyao and Zhuang, Guido and Mackenzie, Joel}, booktitle = {Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval}, year={2024}, publisher = {Association for Computing Machinery}, series = {SIGIR 24} }

许可证

本数据集遵循CC-BY-4.0许可证。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作