R1 reasoning traces

Name: R1 reasoning traces
Creator: 约翰斯霍普金斯大学
Published: 2025-02-26 02:14:06
License: 暂无描述

arXiv2025-02-26 更新2025-02-27 收录

下载链接：

https://github.com/orionw/rank1

下载链接

链接失效反馈

官方服务：

资源简介：

R1推理链数据集是由约翰斯霍普金斯大学的研究团队创建的，包含了从MS MARCO数据集中提取的超过63.5万个查询和段落的R1推理链例子。该数据集用于训练能够利用测试时间计算的reranking模型RANK1，该模型在信息检索的reranking设置中展示了卓越的性能。数据集的内容来源于MS MARCO的积极示例、Tevatron的抽样否定示例、mT5-13B的硬否定示例等，经过仔细的质量过滤和混合，最终形成了用于训练的高质量数据集。该数据集的应用领域主要在于信息检索，旨在解决如何通过reranking提高检索相关性的问题。

The R1 Reasoning Chain Dataset was developed by a research team at Johns Hopkins University, containing over 635,000 R1 reasoning chain examples of queries and passages extracted from the MS MARCO dataset. This dataset is designed for training the RANK1 reranking model that leverages test-time computation, which has demonstrated exceptional performance in the information retrieval reranking setup. The dataset's content is sourced from positive examples from MS MARCO, sampled negative examples from Tevatron, hard negative examples from mT5-13B, among other sources. After rigorous quality filtering and mixing, it is finalized as a high-quality dataset for training purposes. The primary application domain of this dataset is information retrieval, aiming to solve the problem of improving retrieval relevance through reranking.

提供机构：

约翰斯霍普金斯大学

创建时间：

2025-02-26

搜集汇总

数据集介绍

构建方式

R1 reasoning traces 数据集的构建，主要采用了 MS MARCO 数据集中的查询和段落，通过 R1 语言模型生成超过 600,000 个推理链的例子。这些推理链展示了模型在测试时如何“思考”以得出最终答案。数据集的构建过程中，研究人员从 MS MARCO 数据集中随机采样了 635,000 个 R1 的推理过程示例，并使用这些推理链对一系列语言模型进行了微调。

特点

R1 reasoning traces 数据集具有以下特点：1) 在高级推理和指令遵循数据集上表现出最先进的性能；2) 由于能够响应用户输入提示，因此在分布外的工作表现出色；3) 具有可解释的推理链，可以提供给用户或基于 RAG 的系统。此外，该数据集还展示了量化版本的模型在使用更少的计算/内存的情况下仍能保持强大的性能。

使用方法

R1 reasoning traces 数据集的使用方法如下：1) 使用 kluster.ai 的 API 服务访问 R1，并使用其批量模式生成数据；2) 从 MS MARCO 数据集中随机采样正例和负例，并从 Tevatron2 和 mT5-13B 模型中采样负例；3) 对生成的数据进行混合和过滤，以确保数据质量；4) 使用 Qwen 2.5 系列模型对推理链进行微调，并使用 LoRA 进行训练。

背景与挑战

背景概述

R1 reasoning traces数据集是由约翰霍普金斯大学的研究团队创建的，旨在支持RANK1模型的训练，这是一个首次利用测试时间计算进行重新排序的模型。该数据集收集了超过60万个来自MS MARCO数据集中查询和段落的R1推理痕迹示例。RANK1模型在高级推理和指令遵循数据集上展示了最先进的性能，能够应对用户输入提示，并具有可解释的推理链。该数据集对信息检索领域产生了重要影响，展示了测试时间计算在提高搜索性能方面的潜力。

当前挑战

R1 reasoning traces数据集面临着一些挑战。首先，构建过程中遇到了数据质量问题，例如，R1对某些硬负样本的预测与隐含标签不一致，需要过滤这些实例。其次，数据集的多样性有限，主要集中在英语数据上，这限制了其在多语言环境下的性能。此外，由于R1模型在推理过程中可能会过度思考，导致一些相关文档被错误地标记为不相关。最后，RANK1模型在推理过程中计算成本较高，这可能会影响其实际应用中的效率。

常用场景

经典使用场景

R1 reasoning traces 数据集主要用于训练信息检索领域的重排序模型。该数据集收集了超过60万个R1推理链的示例，这些推理链是从MS MARCO数据集中的查询和段落生成的。通过在R1推理链上进行微调，研究人员发现，这些模型在高级推理和指令遵循数据集上表现出最先进的性能，并且能够在分布外工作得很好，因为它们能够响应用户输入的提示。

衍生相关工作

R1 reasoning traces 数据集的衍生工作包括Rank1模型，这是一个首次利用测试时间计算进行重排序的模型。Rank1模型在高级推理和指令遵循数据集上表现出最先进的性能，并且能够在分布外工作得很好。此外，Rank1模型还具有可解释的推理链，这些推理链可以提供给用户或RAG系统。

数据集最近研究