backtranslated-tir

Name: backtranslated-tir
Creator: CAMEL-AI.org
Published: 2025-06-24 06:04:54
License: 暂无描述

Hugging Face2025-06-24 更新2025-06-25 收录

下载链接：

https://huggingface.co/datasets/camel-ai/backtranslated-tir

下载链接

链接失效反馈

官方服务：

资源简介：

Agent-Distilled Math Reasoning (TIR+CoT)数据集包含数学问题及其对应的工具整合推理(TIR)轨迹和思维链(CoT)轨迹。该数据集用于微调大型语言模型，以进行逐步的数学推理和工具增强的问题解决。

Agent-Distilled Math Reasoning (TIR+CoT) dataset contains mathematical problems paired with their corresponding Tool-Integrated Reasoning (TIR) trajectories and Chain-of-Thought (CoT) trajectories. This dataset is designed for fine-tuning large language models to enable step-by-step mathematical reasoning and tool-augmented problem-solving.

提供机构：

CAMEL-AI.org

创建时间：

2025-06-24

搜集汇总

数据集介绍

构建方式

在数学推理领域，backtranslated-tir数据集的构建采用了多源数据整合与智能代理蒸馏相结合的创新方法。研究团队通过整合NuminaMATH、MATH和DeepScaleR等权威数学基准数据集，构建了包含25,000道数学问题的初始训练集。为确保数据质量，采用10-gram子序列匹配技术进行去重处理，并通过Solver Agent生成工具集成推理轨迹，最终获得11.6k条经过严格筛选的TIR轨迹数据，整体准确率达到46%。

特点

该数据集最显著的特征在于其双轨推理架构，每条数据同时包含工具集成推理轨迹和思维链轨迹。TIR轨迹完整记录了智能代理调用外部工具进行分步推理的过程，而CoT轨迹则通过Rephrase Agent对TIR轨迹进行自然语言重构，形成更适合监督微调的清晰推理步骤。这种双轨设计为研究数学推理中工具使用与自然语言推理的关系提供了独特视角。

使用方法

该数据集主要应用于大语言模型的监督微调和数学推理能力评估。研究人员可将数学问题作为模型输入，对应的CoT轨迹作为目标输出，训练模型生成具有逻辑性的分步推理过程。评估阶段则可通过分析模型生成的TIR轨迹与CoT轨迹的一致性，全面衡量模型在工具辅助推理和自然语言推理两个维度的表现能力。数据集采用jsonl格式存储，便于流式读取和处理。

背景与挑战

背景概述

Agent-Distilled Math Reasoning (TIR+CoT) Dataset是由ToRL团队（Li et al., 2025）主导构建的数学推理数据集，旨在通过工具集成推理（TIR）和思维链（CoT）的结合，推动大语言模型在数学问题求解领域的发展。该数据集整合了NuminaMATH（Jia et al., 2024）、MATH（Hendrycks et al., 2021）和DeepScaleR（Luo et al., 2025）等多个权威数学基准数据，覆盖了多样化的数学领域问题。通过严格的去重和过滤流程，最终收录了25,000道数学问题及其对应的11.6k条TIR轨迹，为数学推理模型的训练与评估提供了高质量的数据支持。

当前挑战

该数据集面临的挑战主要体现在两个方面：其一，数学问题的复杂性和多样性要求模型具备强大的逻辑推理和工具调用能力，而现有TIR轨迹的准确率仅为46%，反映出工具集成推理在实际应用中的技术瓶颈；其二，数据构建过程中需解决训练集与测试集之间的数据泄露问题，通过严格的10-gram子序列去重确保评估的公正性，这一过程对数据清洗和标注提出了极高的要求。

常用场景

经典使用场景

在数学推理领域，backtranslated-tir数据集通过整合工具集成推理（TIR）和思维链（CoT）的多样化数学问题，为大型语言模型的精细调优提供了理想资源。研究者可利用该数据集中的问题与详细推理步骤，训练模型逐步解决复杂数学问题，尤其适用于需要结合外部工具进行多步推理的场景。

实际应用

在教育科技领域，该数据集可赋能智能辅导系统生成具备可解释性的解题步骤；在科研场景中，其工具调用轨迹为构建自动化数学证明助手提供了关键训练数据。金融量化分析等领域亦可借鉴其工具集成范式，开发复杂计算任务的推理引擎。

衍生相关工作

基于该数据集衍生的经典研究包括ToRL框架下的多智能体协同推理系统，以及融合TIR与CoT的混合训练范式。相关成果发表在NeurIPS等顶会上，推动了NuminaMATH等基准的演进，并为DeepScaleR中的规模化推理技术提供了关键数据支持。

以上内容由遇见数据集搜集并总结生成