s1-test-time-scaling-synth-public

Name: s1-test-time-scaling-synth-public
Creator: tokyotech-llm
Published: 2026-02-19 18:54:25
License: 暂无描述

Hugging Face2026-02-19 更新2026-02-20 收录

下载链接：

https://huggingface.co/datasets/tokyotech-llm/s1-test-time-scaling-synth-public

下载链接

链接失效反馈

官方服务：

资源简介：

s1-test-time-scaling-synth 是一个日英双语强化学习数据集，基于监督微调数据集 simplescaling/data_ablation_full59K 构建而成。原始数据集覆盖数学、科学和代码生成任务，本数据集通过以下增强改造适用于可验证奖励的强化学习（RLVR）：1）将问题陈述翻译为日语（采用 gpt-oss-120b 进行最佳N翻译）；2）提取"RLVR就绪"格式的基准答案；3）标注问题可答性。数据集包含58,986条记录，字段分为继承自原始数据集的部分（如问题ID、英文题干、解题步骤、元数据等）和新增部分（如日文翻译候选、翻译质量评分、可答性标注等）。特别适用于研究RLVR训练中的语言特异性问题，使用时需注意不同字段遵循多源许可证（包括原始数据集许可证、Google API条款和Apache 2.0协议）。

提供机构：

tokyotech-llm

创建时间：

2026-02-09

搜集汇总

数据集介绍

构建方式

在强化学习与多语言自然语言处理领域，数据集的构建需兼顾语言覆盖与任务多样性。s1-test-time-scaling-synth数据集以原始监督微调数据集为基础，通过系统化流程进行扩展与标注。其构建过程首先采用gpt-oss-120b模型进行最佳候选翻译，生成八个日语翻译版本，并基于GEMBA-MQM方法进行自评估质量筛选，确保翻译的准确性与流畅性。随后从原始元数据中提取标准答案，并依据问题类型、答案可获取性及翻译质量等因素，对每个样本进行可回答性标注，最终形成包含58,986条记录的双语数据集。

特点

该数据集在跨语言推理任务中展现出显著特点，其核心在于双语并行的问题表述，同时提供英语原句与高质量日语翻译，为研究语言特异性提供了坚实基础。数据集涵盖数学、科学及代码生成等多类任务，来源广泛，确保了任务多样性。每个样本均附有详细的元信息，包括翻译质量评分、可回答性标签及标准答案，增强了数据的透明度和可用性。特别设计的可回答性标注机制，有效区分了可验证答案的问题与证明类等复杂任务，提升了数据集的实用价值。

使用方法

在强化学习验证奖励框架下，该数据集为模型训练与评估提供了明确路径。用户可通过`datasets`库加载数据，选择英语`question`或日语`translated_question`作为问题输入，并以`answer`字段作为标准答案进行验证。为优化训练数据质量，建议利用`answerable`字段过滤不可回答样本，确保任务的可解性。数据集适用于探究双语模型性能差异，或作为多语言推理任务的基准测试资源，使用时需注意各源数据集的许可协议，避免潜在的基准泄露风险。

背景与挑战

背景概述

s1-test-time-scaling-synth数据集源自2025年EMNLP会议发表的's1: Simple test-time scaling'研究，由Niklas Muennighoff等学者构建，旨在探索测试时扩展方法对大型语言模型推理能力的提升。该数据集基于simplescaling/data_ablation_full59K原始数据集，整合了数学、科学与代码生成等多元任务，并利用前沿推理模型生成思维轨迹。东京工业大学等机构进一步将其扩展为日英双语版本，以支持可验证奖励的强化学习研究，着重考察语言特异性对模型训练的影响，为跨语言推理模型的优化提供了重要实验基础。

当前挑战

该数据集致力于解决复杂推理任务的跨语言可验证强化学习问题，其核心挑战在于确保多语言环境下问题表述与标准答案的精确对齐。构建过程中面临多重困难：首先，日文翻译需通过最佳N候选与GEMBA-MQM质量评估实现语义保真，避免因翻译误差导致答案可推导性降低；其次，从异构源数据中统一提取简短答案涉及复杂的启发式规则设计，需协调元数据字段与解决方案文本的差异；此外，数据来源涵盖16个不同许可协议的数据集，整合时需严格遵循知识产权规范，并防范基准泄露风险，这对数据集的合规性与泛化能力提出了严格要求。

常用场景

经典使用场景

在自然语言处理领域，特别是在强化学习与推理模型训练中，s1-test-time-scaling-synth数据集被广泛应用于多语言环境下的可验证奖励强化学习（RLVR）研究。该数据集通过整合数学、科学和代码生成任务，并提供了日语和英语双语问题陈述，使得研究者能够探究语言特异性对模型推理能力的影响。经典使用场景包括利用数据集中的问题陈述和标准答案，训练模型生成精确的推理轨迹，从而优化模型在复杂任务中的表现。

衍生相关工作

基于s1-test-time-scaling-synth数据集，衍生了一系列经典研究工作，主要集中在多语言强化学习和推理模型优化领域。例如，研究者利用该数据集探究了GPT-oss等前沿模型在翻译质量评估中的表现，并开发了基于GEMBA-MQM方法的自动翻译评估框架。此外，数据集还支持了关于可验证奖励强化学习（RLVR）的理论探索，推动了如DSPy框架下的提示优化算法（如GEPA）的发展，为多语言人工智能系统的构建提供了重要参考。

数据集最近研究