five

CHIMERA

收藏
Hugging Face2026-03-03 更新2026-03-04 收录
下载链接:
https://huggingface.co/datasets/TianHongZXY/CHIMERA
下载链接
链接失效反馈
官方服务:
资源简介:
CHIMERA 是一个紧凑但高难度的合成推理数据集,包含长链思维(CoT)轨迹和广泛的 STEM 覆盖范围,专为推理后训练设计。所有样本均由大型语言模型(LLM)生成并自动验证,无需人工标注。数据集包含 9,225 个问题,覆盖 8 个学科和 1,179 个主题。每个样本包含以下字段:学科(如数学、物理、计算机科学、化学)、主题(细粒度标签)、问题(自包含的推理任务)、答案(简洁的最终答案)、解决方案(详细的多步推理轨迹)、原始解决方案(由 GPT-5 生成的参考解决方案)以及正确性(解决方案是否与 GPT-5 的答案一致)。数据集分为两个子集,分别使用不同的求解模型生成解决方案。CHIMERA 旨在解决现有推理数据集在领域覆盖、解决方案长度和标注瓶颈方面的局限性,适用于文本生成和问答任务。
创建时间:
2026-03-02
原始信息汇总

CHIMERA 数据集概述

数据集基本信息

  • 数据集名称:CHIMERA
  • 数据集描述:一个紧凑但高难度的合成推理数据集,包含长思维链轨迹和广泛的STEM覆盖,专为推理后训练设计。
  • 语言:英语
  • 主要标签:推理、思维链、合成数据、大语言模型、STEM、后训练
  • 许可证:Apache-2.0
  • 任务类别:文本生成、问答
  • 规模类别:1K<n<10K
  • 标注创建者:机器生成
  • 问题总数:9,225
  • 学科数量:8
  • 主题数量:1,179

数据集配置

数据集包含两个配置(子集),共享相同的questionansweroriginal_solutiontopicsubjectindex字段。

配置名称 默认配置 用于生成solution的求解模型 正确性(正确/错误)
Qwen3-235B-2507 Qwen3-235B-A22B-Thinking-2507 7,206 / 2,019
Qwen3.5-397B Qwen3.5-397B-A17B 7,802 / 1,423

数据格式

每个样本包含以下结构化字段:

  • Subject:广泛的学科标签(例如数学、物理、计算机科学、化学)。
  • Topic:学科下的细粒度主题(来自LLM生成的分类法)。
  • Question:一个自包含、表述清晰的推理任务,带有明确的假设。
  • Answer:用于验证和基于结果的训练的简洁最终答案。
  • Solution:由子集的求解模型生成的长篇、详细的多步骤推理轨迹。
  • Original Solution:在问题合成时由GPT-5生成的参考解决方案,代表权威的解决路径。
  • Correctness:指示solution是否与GPT-5的真实answer一致,由GPT-5和o4-mini验证器判断。

学科分布

学科 数量
数学 4,452
计算机科学 1,303
化学 1,102
物理 742
文学 504
历史 422
生物学 383
语言学 317

基于CHIMERA训练的模型

模型 训练方式
TianHongZXY/CHIMERA-4B-SFT Qwen3-235B-2507子集上进行监督微调
TianHongZXY/CHIMERA-4B-RL Qwen3-235B-2507子集上进行监督微调+强化学习

局限性

  • 合成痕迹:推理轨迹可能包含来自生成模型的冗长或风格化痕迹。
  • 不完美的验证:自动检查减少了错误,但不能保证正确性。
  • 偏见:合成数据可能继承生成和验证模型的偏见。

引用

bibtex @article{chimera2026, title = {CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning}, author = {Xinyu Zhu and Yihao Feng and Yanchao Sun and Xianzhi Du and Pingzhi Li and Olli Saarikivi and Yun Zhu and Yu Meng}, journal = {arXiv preprint arXiv:2603.00889}, year = {2026} }

搜集汇总
数据集介绍
构建方式
在人工智能推理领域,高质量监督数据的稀缺性长期制约着模型泛化能力的提升。CHIMERA数据集通过全自动流水线构建,其核心流程始于利用大型语言模型生成涵盖数学、物理、计算机科学等八个广泛学科的复杂问题。随后,系统调用如Qwen3-235B-2507等专用求解器模型,为每个问题生成详尽的多步推理轨迹,即长链思维过程。所有生成的内容均经过GPT-5与o4-mini等模型的自动化验证,对比原始权威解答以判断正确性,最终形成包含九千余个样本的合成数据集,全程无需人工标注。
使用方法
CHIMERA数据集主要服务于大语言模型的推理能力后训练。研究者可直接加载其Parquet格式文件,利用其中的问题、详细解答步骤及验证标签进行监督微调,以注入复杂的推理能力。数据集的结构支持多种训练范式,例如,可专注于学习长链思维轨迹,或利用正确与错误的解答样本进行对比训练以提升模型判别力。基于该数据集训练的CHIMERA-4B系列模型已展示其应用潜力,用户可在实际部署前根据任务需求对数据进行额外过滤,以适配高风险应用场景。
背景与挑战
背景概述
在大型语言模型推理能力持续演进的背景下,高质量监督数据的稀缺成为制约模型泛化性能的关键瓶颈。CHIMERA数据集于2026年由Xinyu Zhu等研究人员构建,旨在通过合成数据管道为语言模型的推理后训练提供支持。该数据集聚焦于解决STEM及人文领域的复杂推理问题,其核心研究在于探索如何利用自动化生成的、具备长链思维轨迹的数据,突破传统数据在领域覆盖广度与推理深度上的局限,从而推动模型在多样化任务上的泛化能力发展。
当前挑战
CHIMERA数据集致力于应对复杂推理任务中模型泛化能力不足的领域挑战,传统开放数据集常局限于数学等单一领域,且解决方案简短,难以支撑现代思维模型的深度推理需求。在构建过程中,研究团队面临合成数据固有难题:完全依赖大型语言模型生成的内容可能携带冗余表述或风格伪影,自动化验证机制虽能减少错误,却无法保证绝对正确性,同时数据可能继承生成与验证模型中的潜在偏见,这些因素均为数据质量与可靠性带来了持续挑战。
常用场景
经典使用场景
在大型语言模型(LLM)推理能力提升的研究中,CHIMERA数据集常被用于模型的推理后训练阶段。该数据集通过提供覆盖数学、物理、计算机科学、化学等八个STEM学科及人文学科的多样化问题,并附有详尽的长链思维轨迹,使研究者能够训练模型掌握复杂、多步骤的推理模式。其经典应用场景在于利用这些高质量、自动生成的合成数据,对模型进行监督微调或强化学习,以系统性地增强模型在跨学科复杂问题上的泛化推理能力。
解决学术问题
CHIMERA数据集主要解决了当前开放推理数据集中存在的三个核心学术问题:领域覆盖狭窄、解决方案过短以及人工标注成本高昂。它通过全自动化的流水线生成了涵盖广泛学科主题的难题,并提供了长视野的推理路径,为研究社区提供了可扩展的高质量监督信号。这一贡献使得深入探究模型在多样化、长链条推理任务上的性能极限成为可能,推动了通用人工智能在复杂认知任务上的发展。
实际应用
在实际应用中,基于CHIMERA训练的语言模型能够被部署于需要深度分析与逻辑推理的智能系统中。例如,在自动化教育辅导领域,此类模型可以解析并逐步解答学生的跨学科难题;在科研辅助场景中,它能帮助研究人员梳理复杂问题的解决思路。数据集提供的结构化、可验证的推理轨迹,为构建可靠、透明的AI推理代理奠定了数据基础,提升了AI系统在专业领域辅助决策的可解释性与实用性。
数据集最近研究
最新研究方向
在大型语言模型的推理能力优化领域,CHIMERA数据集以其紧凑而高难度的合成数据特性,正推动着前沿研究向更广泛的学科覆盖与长链条思维轨迹方向深化。该数据集通过全自动流程生成涵盖数学、物理、计算机科学等多学科的复杂问题及其详细推理步骤,有效突破了传统数据在领域局限性与标注成本上的瓶颈。当前研究热点聚焦于利用此类高质量合成数据对模型进行后训练,以增强其在STEM领域的泛化推理能力,同时探索如何通过强化学习等技术进一步优化模型的思维链生成质量。这一方向不仅提升了模型在复杂问题解决中的可靠性,也为构建更具适应性和可解释性的人工智能系统奠定了数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作