five

ReMixer

收藏
arXiv2025-10-09 更新2025-10-11 收录
下载链接:
https://github.com/VectorSpaceLab/agentic-search/tree/main/ReasonEmbed
下载链接
链接失效反馈
官方服务:
资源简介:
ReMixer 是一个用于推理密集型文档检索的文本嵌入模型。该模型通过创新的数据生成和使用方法,解决了现有合成数据集中存在的简单性问题,并设计了一种自适应训练方法,动态调整训练样本的权重。ReMixer 在多个不同大小的 LLM 模型上实现,并在推理密集型检索任务中取得了最先进的性能。

ReMixer is a text embedding model tailored for inference-intensive document retrieval. By adopting innovative data generation and utilization strategies, it addresses the simplicity problem inherent in existing synthetic datasets, and proposes an adaptive training method that dynamically adjusts the weights of training samples. ReMixer has been implemented across multiple LLM models of varying scales, and achieves state-of-the-art performance on inference-intensive retrieval tasks.
提供机构:
中国科学院大学, 北京人工智能研究院, 北京邮电大学, 认知智能国家重点实验室, 香港理工大学
创建时间:
2025-10-09
搜集汇总
数据集介绍
main_image_url
构建方式
在推理密集型文档检索领域,ReMixer数据集通过三阶段合成流程构建而成。首先基于BRIGHT基准中的知识密集型语料,采用条件化查询生成框架,利用大语言模型生成具有多样化长度和语言风格的复杂查询。随后通过候选文档挖掘阶段,排除原始源文档以避免表面匹配,转而从语料库中检索语义相关但形式各异的文档作为候选。最后通过推理增强的相关性标注流程,借助蒸馏优化的轻量级推理模型对查询-文档对进行深度语义分析,确保标注结果能准确反映复杂的推理关联。
使用方法
该数据集专为训练推理密集型检索模型设计,可通过对比学习框架直接用于嵌入模型优化。训练时采用自适应的RI-InfoNCE损失函数,根据样本的推理强度动态调整权重,使模型更专注于复杂语义关系的学习。实践表明,在MSMARCO预训练模型基础上,使用该数据集单轮微调即可显著提升模型在BRIGHT、R2MED等推理密集型基准上的表现,同时展现出优秀的跨领域泛化能力。
背景与挑战
背景概述
ReMixer数据集于2025年由北京人工智能研究院、中国科学技术大学等机构联合发布,作为ReasonEmbed模型的核心组成部分,专注于解决推理密集型文档检索任务。该数据集通过创新的三阶段合成方法,在科学、数学、编程等复杂领域构建了8.2万高质量训练样本,显著提升了模型对深层语义关系的捕捉能力。其突破性设计为人工智能代理在知识密集型场景中的信息获取奠定了数据基础,推动了检索系统从传统关键词匹配向认知推理范式的转型。
当前挑战
在领域问题层面,ReMixer针对推理密集型文档检索中复杂语义关联的识别难题,需克服传统检索模型对表面模式过度依赖的局限。构建过程中面临三重挑战:一是合成数据普遍存在的浅层关联问题,需通过条件生成与源文档排除机制确保推理必要性;二是高质量标注对深度推理的依赖,需设计三阶段注释流程并采用知识蒸馏优化标注效率;三是训练样本推理强度差异显著,需开发自适应加权算法实现差异化学习。
常用场景
经典使用场景
在人工智能代理日益普及的背景下,ReMixer数据集主要应用于需要深度推理的文档检索场景。该数据集通过三阶段合成流程生成的8.2万高质量样本,专门针对科学、数学、编程等知识密集型领域的长文本查询进行优化。其典型应用包括为自主AI代理提供外部知识参考,帮助模型理解查询与文档间复杂的语义关联,突破传统检索系统在推理密集型任务中的性能瓶颈。
解决学术问题
ReMixer有效解决了推理密集型文档检索领域训练数据稀缺的核心难题。传统检索数据集如MSMARCO和Natural Questions主要基于关键词匹配,而该数据集通过条件化查询生成、源文档排除候选挖掘和推理增强标注三大创新,显著提升了模型对复杂语义关系的捕捉能力。其在BRIGHT基准测试中达到38.1的nDCG@10分数,证明了其在突破推理瓶颈方面的学术价值。
实际应用
该数据集在现实场景中展现出广泛适用性,特别是在需要深度知识推理的专业领域。其支持开发的ReasonEmbed模型已成功应用于智能助手、软件工程和科学研究等场景,为AI代理提供精准的外部知识索引。在医疗健康领域R2MED基准测试中,该技术实现了43.18的检索性能,展现出强大的跨领域迁移能力,为专业级知识检索系统提供了可靠支撑。
数据集最近研究
最新研究方向
在智能信息检索领域,ReMixer数据集作为ReasonEmbed模型的核心组成部分,正推动推理密集型文档检索的前沿研究。该数据集通过创新的三阶段合成方法——条件化查询生成、源文档排除的候选挖掘和推理增强的相关性标注,有效解决了传统合成数据中普遍存在的浅层关联问题,生成了超过8.2万高质量训练样本。当前研究热点聚焦于如何利用此类数据提升嵌入模型对复杂语义关系的捕捉能力,特别是在科学、数学和编程等需要深度推理的领域。其技术突破显著影响了自主智能代理的发展,为构建能够处理长查询、多步骤推理的下一代检索系统奠定了数据基础,同时通过开源策略促进了该领域的协同创新。
相关研究论文
  • 1
    ReasonEmbed: Enhanced Text Embeddings for Reasoning-Intensive Document Retrieval中国科学院大学, 北京人工智能研究院, 北京邮电大学, 认知智能国家重点实验室, 香港理工大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作