income/cqadupstack-tex-top-20-gen-queries

Name: income/cqadupstack-tex-top-20-gen-queries
Creator: income
Published: 2023-01-24 19:53:05
License: 暂无描述

Hugging Face2023-01-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/income/cqadupstack-tex-top-20-gen-queries

下载链接

链接失效反馈

官方服务：

资源简介：

BEIR Benchmark是一个异构的基准测试，由18个不同的数据集组成，涵盖了9种信息检索任务，包括事实核查、问答、生物医学信息检索、新闻检索、论点检索、重复问题检索、引用预测、推文检索和实体检索。所有数据集都经过预处理，可用于实验。数据集包含语料库、查询和相关性判断文件，所有任务均为英文。

提供机构：

income

原始信息汇总

BEIR Benchmark 数据集概述

数据集基本信息

名称: BEIR Benchmark
别名: BEIR
语言: 英语 (en)
许可证: CC-BY-SA-4.0
多语言性: 单语
大小分类:
- msmarco: 1M<n<10M
- trec-covid: 100k<n<1M
- nfcorpus: 1K<n<10K
- nq: 1M<n<10M
- hotpotqa: 1M<n<10M
- fiqa: 10K<n<100K
- arguana: 1K<n<10K
- touche-2020: 100K<n<1M
- cqadupstack: 100K<n<1M
- quora: 100K<n<1M
- dbpedia: 1M<n<10M
- scidocs: 10K<n<100K
- fever: 1M<n<10M
- climate-fever: 1M<n<10M
- scifact: 1K<n<10K

数据集结构

数据实例

文档: 包含唯一标识符 _id、标题 title 和文本内容 text。
查询: 包含唯一标识符 _id 和查询文本 text。
相关性判断: 包含查询标识符 query-id、文档标识符 corpus-id 和相关性分数 score。

数据字段

文档:
- _id: 字符串，文档唯一标识符。
- title: 字符串，文档标题。
- text: 字符串，文档内容。
查询:
- _id: 字符串，查询唯一标识符。
- text: 字符串，查询内容。
相关性判断:
- query-id: 字符串，查询标识符。
- corpus-id: 字符串，文档标识符。
- score: 整数，相关性评分。

数据集创建

来源数据

初始数据收集和标准化: 信息不足。
语言数据源: 信息不足。

注释

注释过程: 信息不足。
注释者: 信息不足。

个人和敏感信息

信息: 信息不足。

使用数据的考虑

社会影响

信息: 信息不足。

偏见讨论

信息: 信息不足。

其他已知限制

信息: 信息不足。

附加信息

数据集管理

信息: 信息不足。

许可证信息

信息: 信息不足。

引用信息

@inproceedings{ thakur2021beir, title={{BEIR}: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models}, author={Nandan Thakur and Nils Reimers and Andreas R{"u}ckl{e} and Abhishek Srivastava and Iryna Gurevych}, booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)}, year={2021}, url={https://openreview.net/forum?id=wCu6T5xFjeJ} }

贡献

贡献者: 信息不足。

搜集汇总

数据集介绍

构建方式

在信息检索领域，合成查询生成技术常被用于扩充训练数据以提升模型性能。该数据集基于BEIR基准中的NFCorpus语料库，采用DocT5query模型（BeIR/query-gen-msmarco-t5-base-v1）为每个文档片段生成20条合成查询。生成过程遵循evaluate_anserini_docT5query_parallel.py脚本的并行化处理逻辑，确保高效产出。数据集中每条记录包含唯一文档标识符（id）及其对应的20个合成问题，这些查询旨在模拟真实用户的信息需求，从而丰富检索任务的训练素材。

使用方法

该数据集可直接用于信息检索模型的训练与评估。使用时，用户需配合BEIR基准的原始语料文件（corpus.jsonl）和相关性判断文件（qrels.tsv）一同加载。每条数据中的id字段用于与语料库中的文档建立映射关系，生成的20条查询可作为增强的查询集，用于微调检索模型或评估其对多样化查询表述的鲁棒性。推荐采用Hugging Face的datasets库进行加载，并结合BEIR框架的评估流程进行实验。数据集仅包含英语内容，适用于单语言检索任务。

背景与挑战

背景概述

信息检索领域的发展长期受限于缺乏统一、多样化的评估基准，导致模型在不同任务间的泛化能力难以衡量。在此背景下，由英国伦敦大学学院（UCL）与达姆施塔特工业大学（TU Darmstadt）的Nandan Thakur、Nils Reimers等研究人员于2021年构建的BEIR基准应运而生。该数据集整合了涵盖事实核查、问答、生物医学检索、新闻检索、论点检索、重复问题检索、引文预测、推文检索及实体检索等9大任务的18个异构数据集，旨在为零样本信息检索模型提供标准化评估平台。收入/cqadupstack-tex-top-20-gen-queries作为BEIR框架下的衍生数据集，专注于通过DocT5query模型为NFCorpus语料库中的每个段落生成20条合成查询，强化了在生物医学文本检索场景下的训练与评估能力。该基准的发布显著推动了信息检索领域对模型泛化性能的研究，其开源的评估框架与排行榜已成为领域内衡量检索系统鲁棒性的重要参照。

当前挑战

该数据集所面临的核心挑战首先体现在领域问题的复杂性上：生物医学文本检索需要模型精确理解专业术语与语义关联，而NFCorpus中仅包含约3600个段落与323条查询的有限标注规模，加剧了模型在低资源场景下的过拟合风险。其次，构建过程中遭遇多重技术难点——合成查询的生成依赖DocT5query模型，该模型虽能扩充训练数据，但生成质量受限于预训练语料的覆盖度，可能导致查询与原始段落间的语义偏差；同时，跨领域迁移时，不同任务（如从通用问答转向生物医学检索）的查询分布差异显著，模型需克服领域漂移带来的性能衰减。此外，BEIR基准包含的18个数据集在规模、标注密度与任务类型上高度异构，如何设计统一的评估协议以公平比较模型表现，仍是持续存在的系统性挑战。

常用场景

经典使用场景

在信息检索与自然语言处理领域，该数据集作为BEIR基准测试的重要组成部分，尤其聚焦于生物医学文本检索任务。其经典使用场景在于评估检索模型在零样本迁移场景下的泛化能力，通过为NFCorpus语料库中的每篇文档生成20条合成查询，研究者得以在缺乏领域内标注数据的情况下，检验模型对专业医学文献的理解与匹配精度。这一设计有效模拟了实际检索中查询表达的多样性，推动了对检索系统鲁棒性与语义对齐能力的深入探究。

解决学术问题

该数据集的核心学术贡献在于解决了跨领域零样本检索评估中的关键难题：如何构建一个既包含细粒度相关性标注又具备充足查询多样性的评测基准。传统检索数据集往往局限于单一任务或领域，导致模型泛化性能难以度量。通过引入DocT5query模型生成的合成查询，该数据集弥补了NFCorpus中原始查询数量有限的缺陷，使得研究者能够更可靠地分析模型在生物医学等专业领域中的迁移学习表现，从而推动了检索系统从监督学习向零样本泛化范式的演进。

实际应用

在实际应用层面，该数据集为构建高效的生物医学文献检索系统提供了关键支撑。临床医生和科研人员常需从海量文献中快速定位与特定病症或治疗方案相关的证据，而该数据集所模拟的多样化查询表达——从专业术语到通俗描述——恰好契合了真实用户搜索行为的复杂性。基于此数据集训练的检索模型可被部署于医学知识库、电子病历系统或学术搜索引擎中，显著提升信息获取的准确性与效率，助力精准医疗与循证医学决策。

数据集最近研究