Watheq/doc2query_scored_queries
收藏Hugging Face2024-05-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Watheq/doc2query_scored_queries
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含与特定研究相关的评分文件,这些文件用于评估由T5-based Doc2Query模型生成的扩展查询的相关性。评分是通过ELECTRA交叉编码器获得的,用于衡量文档文本与其扩展查询之间的相关性。数据集的结构为.jsonl文件,每行包含三个字段:[id, predicted_queries, querygen_score]。文件分别对应MSMarco-v1、DBPedia、Quora、Robust04、TREC-COVID和Touché-2020数据集。
该数据集包含与特定研究相关的评分文件,这些文件用于评估由T5-based Doc2Query模型生成的扩展查询的相关性。评分是通过ELECTRA交叉编码器获得的,用于衡量文档文本与其扩展查询之间的相关性。数据集的结构为.jsonl文件,每行包含三个字段:[id, predicted_queries, querygen_score]。文件分别对应MSMarco-v1、DBPedia、Quora、Robust04、TREC-COVID和Touché-2020数据集。
提供机构:
Watheq
原始信息汇总
数据集概述
数据集内容
本数据集包含针对MSMARCO-v1段落数据集和BEIR基准子集的生成查询评分文件。使用基于T5的Doc2Query模型生成扩展查询,并通过ELECTRA交叉编码器获取文档文本与其扩展查询之间的相关性评分。
文件结构
所有文件均为.jsonl格式,每行包含三个字段:["id", "predicted_queries","querygen_score"]。每个文件包含文档ID、扩展查询及其对应的ELECTRA相关性评分。
数据集匹配
msmarco-v1-80-scored-queries.jsonl: 对应MSMARCO-v1数据集。dbpedia-20-scored-queries.jsonl: 对应DBPedia数据集。quora-20-scored-queries.jsonl: 对应Quora数据集。robust04-20-scored-queries.jsonl: 对应Robust04数据集。trec-covid-20-scored-queries.jsonl: 对应TREC-COVID数据集。webis-touche2020-20-scored-queries.jsonl: 对应Touché-2020数据集。
数据来源
引用信息
若使用本数据集,请引用以下文献: plaintext @inproceedings{mansour2024revisit, title={Revisiting Document Expansion and Filtering for Effective First-Stage Retrieval}, author={Mansour, Watheq and Zhuang, Shengyao and Zhuang, Guido and Mackenzie, Joel}, booktitle = {Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval}, year={2024}, publisher = {Association for Computing Machinery}, series = {SIGIR 24} }
许可证
本数据集遵循CC-BY-4.0许可证。



