arxiv-hard-negatives-cross-encoder
收藏Hugging Face2025-05-03 更新2025-05-04 收录
下载链接:
https://huggingface.co/datasets/chungimungi/arxiv-hard-negatives-cross-encoder
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含使用交叉编码器生成的硬负样例,用于训练密集检索模型。该数据被用于论文《Don't Retrieve, Generate: Prompting LLMs for Synthetic Training Data in Dense Retrieval》中。数据集是Hugging Face收藏的一部分。
创建时间:
2025-04-20
原始信息汇总
数据集概述
基本信息
- 语言: 英语 (en)
- 数据规模: 1K<n<10K
- 任务类别: 文本排序 (text-ranking)、文本检索 (text-retrieval)
- 许可证: CC-BY-NC-4.0
数据集内容
- 包含通过交叉编码器生成的难负例样本,用于训练密集检索模型。
相关研究
- 数据集用于论文《Dont Retrieve, Generate: Prompting LLMs for Synthetic Training Data in Dense Retrieval》。
- 论文链接: https://arxiv.org/abs/2504.21015
引用信息
bibtex @misc{sinha2025dontretrievegenerateprompting, title={Dont Retrieve, Generate: Prompting LLMs for Synthetic Training Data in Dense Retrieval}, author={Aarush Sinha}, year={2025}, eprint={2504.21015}, archivePrefix={arXiv}, primaryClass={cs.IR}, url={https://arxiv.org/abs/2504.21015}, }
bibtex @misc{reimers2019sentencebertsentenceembeddingsusing, title={Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks}, author={Nils Reimers and Iryna Gurevych}, year={2019}, eprint={1908.10084}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/1908.10084}, }
其他信息
- 数据集属于Hugging Face集合: arxiv-hard-negatives-68027bbc601ff6cc8eb1f449
搜集汇总
数据集介绍

构建方式
该数据集的构建基于大语言模型生成技术,通过交叉编码器筛选出高质量难负例样本,为稠密检索模型提供训练数据。研究团队采用论文《Don't Retrieve, Generate》中提出的创新方法,利用提示工程引导大语言模型合成训练数据,而非依赖传统检索方式获取负样本。这种数据构建策略显著提升了负样本的多样性和挑战性。
特点
数据集包含规模在1K到10K之间的英文文本对,专门针对文本排序和检索任务优化。其核心价值在于提供的难负例经过交叉编码器严格筛选,能有效提升稠密检索模型的判别能力。作为Hugging Face精选集合的一部分,该数据集继承了Sentence-BERT等前沿研究的理论基础,在负样本质量上具有显著优势。
使用方法
使用者可通过Hugging Face平台直接加载数据集,应用于稠密检索模型的训练与评估。建议结合交叉编码器架构进行负采样策略的优化,同时参考原始论文中的提示工程方法扩展数据生成。根据CC-BY-NC-4.0许可协议,该数据集允许非商业用途的研究性使用,引用时需注明原始论文及数据集来源。
背景与挑战
背景概述
arxiv-hard-negatives-cross-encoder数据集由Aarush Sinha等人于2025年提出,旨在解决密集检索模型训练中的负样本生成问题。该数据集基于大型语言模型(LLMs)生成合成训练数据,以减少对传统检索方法的依赖。研究团队通过交叉编码器(cross-encoder)生成高质量难负例(hard negatives),为密集检索模型的优化提供了新的数据增强途径。该工作发表于arXiv预印本平台,并引用了Sentence-BERT等经典方法,体现了其在信息检索与自然语言处理领域的创新性与影响力。
当前挑战
该数据集的核心挑战在于如何生成具有足够区分度的难负例,以提升密集检索模型的性能。传统负采样方法往往无法提供足够困难的样本,导致模型训练效果受限。在构建过程中,研究团队需解决生成数据的多样性与相关性平衡问题,同时确保生成的负例与正例在语义上足够接近但又能被模型有效区分。此外,如何验证合成数据的质量及其对模型性能的实际提升,也是该数据集面临的重要挑战。
常用场景
经典使用场景
在信息检索领域,arxiv-hard-negatives-cross-encoder数据集为密集检索模型的训练提供了高质量的困难负例样本。这些样本通过交叉编码器生成,能够有效模拟真实检索场景中的复杂语义匹配问题,显著提升了模型在学术文献检索任务中的区分能力。数据集特别适用于需要精准识别相关文献的研究场景,如学术搜索引擎的优化。
实际应用
在实际应用中,该数据集已被广泛应用于构建高性能的学术文献检索系统。基于该数据集训练的模型能够准确识别arXiv等学术平台中相关论文,显著提升了科研人员文献调研的效率。同时,其方法范式也被迁移应用于专利检索、法律文书检索等专业领域。
衍生相关工作
该数据集启发了多项重要研究工作,包括基于大语言模型的合成数据生成方法探索。相关研究如Sentence-BERT等语义嵌入技术,通过借鉴该数据集的构建思路,进一步发展了稠密向量检索的评估框架。这些工作共同推动了信息检索领域向更精细的语义理解方向发展。
以上内容由遇见数据集搜集并总结生成



