s1-test-time-scaling-synth-public
收藏Hugging Face2026-02-19 更新2026-02-20 收录
下载链接:
https://huggingface.co/datasets/tokyotech-llm/s1-test-time-scaling-synth-public
下载链接
链接失效反馈官方服务:
资源简介:
s1-test-time-scaling-synth 是一个日英双语强化学习数据集,基于监督微调数据集 simplescaling/data_ablation_full59K 构建而成。原始数据集覆盖数学、科学和代码生成任务,本数据集通过以下增强改造适用于可验证奖励的强化学习(RLVR):1)将问题陈述翻译为日语(采用 gpt-oss-120b 进行最佳N翻译);2)提取"RLVR就绪"格式的基准答案;3)标注问题可答性。数据集包含58,986条记录,字段分为继承自原始数据集的部分(如问题ID、英文题干、解题步骤、元数据等)和新增部分(如日文翻译候选、翻译质量评分、可答性标注等)。特别适用于研究RLVR训练中的语言特异性问题,使用时需注意不同字段遵循多源许可证(包括原始数据集许可证、Google API条款和Apache 2.0协议)。
提供机构:
tokyotech-llm
创建时间:
2026-02-09
搜集汇总
数据集介绍
构建方式
在强化学习与多语言自然语言处理领域,数据集的构建需兼顾语言覆盖与任务多样性。s1-test-time-scaling-synth数据集以原始监督微调数据集为基础,通过系统化流程进行扩展与标注。其构建过程首先采用gpt-oss-120b模型进行最佳候选翻译,生成八个日语翻译版本,并基于GEMBA-MQM方法进行自评估质量筛选,确保翻译的准确性与流畅性。随后从原始元数据中提取标准答案,并依据问题类型、答案可获取性及翻译质量等因素,对每个样本进行可回答性标注,最终形成包含58,986条记录的双语数据集。
特点
该数据集在跨语言推理任务中展现出显著特点,其核心在于双语并行的问题表述,同时提供英语原句与高质量日语翻译,为研究语言特异性提供了坚实基础。数据集涵盖数学、科学及代码生成等多类任务,来源广泛,确保了任务多样性。每个样本均附有详细的元信息,包括翻译质量评分、可回答性标签及标准答案,增强了数据的透明度和可用性。特别设计的可回答性标注机制,有效区分了可验证答案的问题与证明类等复杂任务,提升了数据集的实用价值。
使用方法
在强化学习验证奖励框架下,该数据集为模型训练与评估提供了明确路径。用户可通过`datasets`库加载数据,选择英语`question`或日语`translated_question`作为问题输入,并以`answer`字段作为标准答案进行验证。为优化训练数据质量,建议利用`answerable`字段过滤不可回答样本,确保任务的可解性。数据集适用于探究双语模型性能差异,或作为多语言推理任务的基准测试资源,使用时需注意各源数据集的许可协议,避免潜在的基准泄露风险。
背景与挑战
背景概述
s1-test-time-scaling-synth数据集源自2025年EMNLP会议发表的's1: Simple test-time scaling'研究,由Niklas Muennighoff等学者构建,旨在探索测试时扩展方法对大型语言模型推理能力的提升。该数据集基于simplescaling/data_ablation_full59K原始数据集,整合了数学、科学与代码生成等多元任务,并利用前沿推理模型生成思维轨迹。东京工业大学等机构进一步将其扩展为日英双语版本,以支持可验证奖励的强化学习研究,着重考察语言特异性对模型训练的影响,为跨语言推理模型的优化提供了重要实验基础。
当前挑战
该数据集致力于解决复杂推理任务的跨语言可验证强化学习问题,其核心挑战在于确保多语言环境下问题表述与标准答案的精确对齐。构建过程中面临多重困难:首先,日文翻译需通过最佳N候选与GEMBA-MQM质量评估实现语义保真,避免因翻译误差导致答案可推导性降低;其次,从异构源数据中统一提取简短答案涉及复杂的启发式规则设计,需协调元数据字段与解决方案文本的差异;此外,数据来源涵盖16个不同许可协议的数据集,整合时需严格遵循知识产权规范,并防范基准泄露风险,这对数据集的合规性与泛化能力提出了严格要求。
常用场景
经典使用场景
在自然语言处理领域,特别是在强化学习与推理模型训练中,s1-test-time-scaling-synth数据集被广泛应用于多语言环境下的可验证奖励强化学习(RLVR)研究。该数据集通过整合数学、科学和代码生成任务,并提供了日语和英语双语问题陈述,使得研究者能够探究语言特异性对模型推理能力的影响。经典使用场景包括利用数据集中的问题陈述和标准答案,训练模型生成精确的推理轨迹,从而优化模型在复杂任务中的表现。
衍生相关工作
基于s1-test-time-scaling-synth数据集,衍生了一系列经典研究工作,主要集中在多语言强化学习和推理模型优化领域。例如,研究者利用该数据集探究了GPT-oss等前沿模型在翻译质量评估中的表现,并开发了基于GEMBA-MQM方法的自动翻译评估框架。此外,数据集还支持了关于可验证奖励强化学习(RLVR)的理论探索,推动了如DSPy框架下的提示优化算法(如GEPA)的发展,为多语言人工智能系统的构建提供了重要参考。
数据集最近研究
最新研究方向
在强化学习与多语言推理领域,s1-test-time-scaling-synth数据集正推动前沿研究,聚焦于可验证奖励的强化学习(RLVR)框架下的跨语言泛化能力探索。该数据集通过整合日语与英语双语问题陈述,并引入基于GEMBA-MQM的翻译质量评估机制,为研究语言特异性对模型推理性能的影响提供了实验基础。当前热点方向包括利用该数据集优化多语言链式思维蒸馏策略,以及探究翻译质量与模型答案生成准确性之间的关联。这些研究不仅深化了对大语言模型跨语言迁移机制的理解,也为构建更稳健的多模态推理系统提供了数据支撑,在人工智能教育、自动化科学问题求解等应用场景中具有潜在价值。
以上内容由遇见数据集搜集并总结生成



