ettin-reranker-v1-data
收藏Hugging Face2026-05-19 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/cross-encoder/ettin-reranker-v1-data
下载链接
链接失效反馈官方服务:
资源简介:
Ettin Reranker v1训练数据集是一个用于训练交叉编码器重排模型的大规模文本对数据集。它由广泛领域的文本对数据与通过强教师重排器重新评分的检索对混合而成,所有标签均由自动评分系统生成,无需人工标注。数据集包含多个子集(如agnews、amazon_reviews、arxiv_title_abstract、msmarco等),涵盖新闻、学术论文、问答、产品评论、社交媒体等多种文本类型。每个样本包含三个字段:查询或锚句子(query)、候选文档或句子(document)和浮点型相关性或相似性分数(label)。数据规模庞大,总样本量在1亿到10亿之间,单个子集样本量从数万到500万不等。该数据集专为文本排名任务设计,适用于训练和评估重排模型(如sentence-transformers交叉编码器),支持信息检索、问答重排、语义相似度计算等应用场景。数据来源于多个公开数据集(如sentence-transformers、nomic、BEIR等),并通过lightonai/embeddings-pre-training等中间数据集进行预处理和整合。
The Ettin Reranker v1 training dataset is a large-scale text pair dataset designed for training cross-encoder reranking models. It is composed of a mixture of text pairs from diverse domains and retrieval pairs rescored by strong teacher rerankers, with all labels generated automatically by a scoring system, eliminating the need for manual annotation. The dataset includes multiple subsets (configurations) such as agnews, amazon_reviews, arxiv_title_abstract, msmarco, covering various text types like news, academic papers, question-answering, product reviews, and social media. Each sample contains three fields: query (the query or anchor sentence), document (the candidate document or sentence), and label (a floating-point relevance or similarity score). The dataset is extensive, with a total sample size ranging from 100 million to 1 billion, and individual subset sizes varying from tens of thousands to 5 million. It is specifically tailored for text ranking tasks, suitable for training and evaluating reranking models (e.g., sentence-transformers cross-encoders), and supports application scenarios such as information retrieval, question-answering reranking, and semantic similarity computation. The data is sourced from multiple public datasets (e.g., sentence-transformers, nomic, BEIR) and preprocessed and integrated through intermediate datasets like lightonai/embeddings-pre-training.
提供机构:
Sentence Transformers - Cross-Encoders
创建时间:
2026-05-16
搜集汇总
数据集介绍

构建方式
Ettin Reranker v1 Training Data 是一个为 CrossEncoder 重新排序模型设计的大规模训练数据集。其构建方式并非依赖人工标注,而是采用自动评分系统为每对文本赋予相关性标签。数据集汇聚了来自多个公开来源的文本对数据,包括来自 sentence-transformers、nomic、beir 等平台的新闻、学术论文摘要、问答社区、电商评论等丰富多样的领域,总计超过 40 个子集。每个子集均以标准三元组格式存储,包含查询(query)、文档(document)及浮点数标签(label),其中标签由强大的教师重新排序模型自动生成,从而实现了高效、大规模且高质量的监督信号获取。
使用方法
该数据集主要用于训练 CrossEncoder 类型的重新排序模型,尤其适用于蒸馏和微调场景。使用时,用户可通过 Hugging Face Datasets 库直接加载指定子集(config),例如`load_dataset('ettin-reranker-v1-data', 'msmarco', split='train')`。每个样本包含 query、document 和 label 字段,label 为浮点数,可直接作为回归任务的目标值,也可通过阈值转换为二分类标签。对于部分包含验证集的子集(如 quora),可进行效果验证。推荐结合 sentence-transformers 或 cross-encoder 框架进行模型训练,利用该数据集进行跨领域的相关性排序能力提升。
背景与挑战
背景概述
Ettin Reranker v1 Training Data 是一个面向文本排序(text-ranking)任务的大规模多领域训练数据集,由 Hugging Face 旗下 cross-encoder 团队创建,旨在训练其 Ettin 系列重排序模型(CrossEncoder reranker)。该数据集汇集了超过 38 个来自医疗、学术、新闻、问答、电商评论等领域的子集,总样本数逾 1 亿条,每条数据包含查询、文档和由自动评分系统生成的相关性标签。其发布时间为 2024 年,核心研究动机在于打破以往依赖人工标注的局限,利用强教师重排序器的打分结果作为监督信号,为通用型重排序模型提供海量、高质量的训练语料。这一思路显著提升了 reranker 在零样本场景下的泛化能力,并对信息检索、语义匹配等下游任务产生了深远影响。
当前挑战
该数据集所解决的领域核心挑战在于重排序模型训练中高质量监督信号匮乏的问题。传统人工标注成本高昂且难以覆盖多样化的查询与文档分布,而自动构建的弱监督标签往往存在噪声与偏差。从构建过程来看,挑战在于将来自不同来源、格式各异的文本对(如 arXiv 摘要、Reddit 评论、S2ORC 引文等)统一为 (query, document, label) 三元组,并确保评分系统的可靠性——即教师模型需在跨域数据上保持一致的判别力。此外,规模巨大的数据量(达数十 TB 原始文本)也对存储、清洗与格式转换的工程效率提出了严苛要求,需在保持数据质量的同时实现高效处理。
常用场景
经典使用场景
在信息检索与自然语言处理的交叉领域中,ettin-reranker-v1-data作为一款大规模、多源的文本对排序数据集,其经典使用场景聚焦于训练交叉编码器(Cross-Encoder)重排序模型。该数据集整合了来自新闻分类、问答系统、科学文献、电商评论、论坛讨论等三十余个异构子集的海量查询-文档对,每个样本均包含一个标量相关性标签。研究者能够利用这些数据来学习一个深度神经网络,以精准预测给定查询与文档之间的语义匹配程度,从而对候选文档列表进行二次排序,显著提升检索系统的精度。通过在该数据集上进行有监督训练,模型可以掌握跨领域的相关性判别能力,这在文本重排序任务中被证明是一种极具效力的范式。
解决学术问题
该数据集的出现有效应对了学术界在多阶段检索系统中面临的核心瓶颈:如何在首阶段粗排后实现高质量的精排。传统方法常依赖简单的向量相似度或稀疏检索信号,难以捕捉复杂的语义相关性。ettin-reranker-v1-data通过对大量弱监督或自监督信号进行自动化标注,构建了规模空前的训练语料,使交叉编码器能够学习到比点积相似度更精细的内在关联。它解决了重排序模型训练数据稀缺、领域泛化性差以及标签噪声控制困难等关键难题。其影响在于推动了重排序技术从实验室专用数据集向大规模、多领域通用基准的进化,并为后续基于知识蒸馏和对比学习的高效排序模型奠定了坚实的训练基础。
实际应用
在产业界,基于ettin-reranker-v1-data训练的重排序模型深入渗透至搜索引擎、智能客服、知识图谱查询以及科研文献检索等实际业务场景。例如,在搜索引擎的后端流水线中,该模型能够对初始检索返回的数百篇文档进行二次精准排序,将最相关的文档提升至用户视野的顶端;在医疗领域,其可辅助医生从海量生物医学预印本中快速定位与临床问题高度相关的论文;在电商平台,它帮助用户从数百万条商品评论或问答中筛选出最具帮助性的信息。这些应用不仅提升了用户体验的满意度,也极大降低了信息过载带来的认知负担,实现了从粗粒度匹配到细粒度理解的跨越。
数据集最近研究
最新研究方向
当前,信息检索领域正经历着从稀疏检索向密集向量检索的深刻范式转变,重排序(Re-ranking)模型作为精排阶段的核心组件,其性能直接决定了搜索系统的最终质量。在此背景下,ettin-reranker-v1-data数据集应运而生,它是一项面向大规模跨编码器(Cross-Encoder)微调的里程碑式资源。该数据集巧妙融合了超过三十个源自新闻、学术、问答及社交平台等多元场景的子集,涵盖海量查询-文档对,且所有标注均由自动化评分系统生成,彻底规避了人工标注的瓶颈与噪声。这一创新举措不仅为蒸馏轻量级重排序器提供了丰沛的原料,更推动了零样本泛化与多领域适配的前沿探索,标志着自动标注范式在文本排序研究中迈入实质性应用阶段。
以上内容由遇见数据集搜集并总结生成



