Enigmata-Data

github2025-05-27 更新2025-05-28 收录

下载链接：

https://github.com/BytedTsinghua-SIA/Enigmata

下载链接

链接失效反馈

官方服务：

资源简介：

Enigmata-Data包含36个不同的任务类型，涵盖7类逻辑推理谜题。每个任务都配有生成器和验证器，生成器可以产生无限数量的谜题实例，并精确控制难度参数，验证器提供自动的、基于规则的解决方案验证。

Enigmata-Data encompasses 36 distinct task types, covering 7 categories of logical reasoning puzzles. Each task is accompanied by a generator and a validator; the generator is capable of producing an infinite number of puzzle instances while precisely controlling difficulty parameters, and the validator provides automatic, rule-based solution verification.

创建时间：

2025-05-27

原始信息汇总

Enigmata数据集概述

数据集简介

名称：Enigmata
类型：逻辑推理谜题数据集
目标：提升大语言模型的逻辑推理能力
特点：
- 首个专注于谜题推理能力的综合套件
- 支持基于规则的可验证奖励的强化学习

数据集组成

Enigmata-Data

任务数量：36个
任务类别：7类
核心组件：
- 生成器：可生成无限量实例，支持难度控制
- 验证器：提供基于规则的自动验证
优势：
- 无限自验证数据
- 可控难度
- 灵活的任务采样

Enigmata-Eval

基准测试规模：4,758个谜题实例
难度级别：Easy、Medium、Hard
数据划分：严格的训练-评估分离

模型训练与应用

训练方法

两阶段训练：
1. 拒绝微调（RFT）
2. 多任务强化学习（带可验证奖励）
代表性模型：Qwen2.5-32B-Enigmata

性能表现

优势领域：密码学、算术、逻辑任务
挑战领域：空间和顺序任务
泛化能力：在AIME、GPQA Diamond等高级推理任务中表现优异

数据与模型资源

Enigmata-Eval下载：HuggingFace Dataset
模型资源：Qwen2.5-32B-Enigmata

引用

bibtex @article{2025enigmata, title={Enigmata: Scaling Logical Reasoning in Large Language Models with Synthetic Verifiable Puzzles}, author={Jiangjie Chen, Qianyu He, Siyu Yuan, Aili Chen, Zhicheng Cai, Weinan Dai, Hongli Yu, Qiying Yu, Xuefeng Li, Jiaze Chen, Hao Zhou, Mingxuan Wang}, journal={arXiv preprint arXiv:2505.19914}, year={2025} }

搜集汇总

数据集介绍

构建方式

在逻辑推理与大型语言模型研究领域，Enigmata-Data通过创新性的生成器-验证器架构构建而成。该数据集涵盖7大类36项任务，每项任务均配备可编程控制的生成器模块，能够按需生成无限量且难度可调的谜题实例，同时集成基于规则的验证器实现自动化解决方案校验。这种双组件设计不仅支持多任务强化学习的无缝集成，还能通过精确控制难度参数实现细粒度的课程学习实验。

特点

Enigmata-Data的核心特征体现在其可扩展性与验证可靠性上。数据集通过动态生成机制突破传统静态数据集的规模限制，每个谜题实例均附带可验证的规则化答案，为强化学习提供即时反馈。独特的难度调控系统支持从基础算术到复杂密码学的全频谱逻辑挑战，而跨任务采样灵活性则为研究模型迁移能力提供了实验基础。可视化分析表明，该数据集能有效提升模型在空间推理和序列预测等传统薄弱环节的表现。

使用方法

该数据集支持端到端的逻辑推理能力开发流程。研究者可通过调用标准化API生成特定难度分布的谜题集合，配合内置验证器实现训练过程的实时质量监控。评估阶段提供标准化测试套件Enigmata-Eval，包含4758个分层验证样本，通过命令行工具即可执行自动化性能分析。实践表明，将该数据集与两阶段训练方案（拒绝微调+多任务强化学习）结合，能显著提升模型在STEM领域复杂推理任务的泛化性能。

背景与挑战

背景概述

Enigmata-Data是由字节跳动与清华大学SIA实验室联合研发的创新型数据集，旨在推动大语言模型在逻辑推理领域的研究。该数据集于2025年正式发布，核心研究团队包括Jiangjie Chen等多位学者。作为首个专注于谜题推理能力的综合数据集，Enigmata-Data包含7大类36种任务类型，通过生成器-验证器的独特设计架构，实现了无限量、可验证的谜题数据生成。该数据集通过强化学习与可验证奖励机制相结合的方式，显著提升了Qwen2.5-32B等模型在ARC-AGI等复杂推理基准上的表现，并为AIME、GPQA等高级数学与STEM推理任务提供了可迁移的推理能力。

当前挑战

Enigmata-Data面临的核心挑战主要体现在两个方面：在领域问题层面，如何构建能够全面评估大语言模型复杂逻辑推理能力的任务体系，特别是在空间推理和序列推理等薄弱环节仍存在显著性能差距；在构建过程层面，需要精确设计可编程难度控制的生成器算法，确保每个谜题实例都具备可验证的解决方案，同时维持任务间的难度平衡与领域多样性。此外，将合成谜题数据有效整合到多任务强化学习框架中，并实现与现有数学推理能力的协同优化，也是该数据集面临的重要技术挑战。

常用场景

经典使用场景

在人工智能领域，Enigmata-Data数据集为大型语言模型的逻辑推理能力提升提供了重要支持。该数据集通过生成可验证的合成谜题，广泛应用于模型训练和评估，特别是在多任务强化学习框架中。研究人员利用其可控难度和自动验证机制，能够系统地探索模型在不同复杂度谜题上的表现，从而优化推理能力。

解决学术问题

Enigmata-Data解决了大型语言模型在逻辑推理任务中泛化能力不足的学术难题。通过提供多样化的谜题类别和自动验证机制，该数据集支持模型在规则推理、数学问题和空间逻辑等任务上的性能提升。其生成器-验证器设计不仅确保了数据的可扩展性，还为研究课程学习对强化学习的影响提供了实验基础。

衍生相关工作

围绕Enigmata-Data衍生的经典工作包括Qwen2.5-32B-Enigmata模型的开发及其在多任务强化学习中的应用。此外，Seed1.5-Thinking等大规模模型通过集成该数据集的谜题数据，在数学和STEM推理任务中实现了性能突破。相关研究还探索了课程学习与自动验证机制对模型推理能力的影响，推动了逻辑推理模型的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集