five

Enigmata-Data|逻辑推理数据集|谜题生成数据集

收藏
github2025-05-27 更新2025-05-28 收录
逻辑推理
谜题生成
下载链接:
https://github.com/BytedTsinghua-SIA/Enigmata
下载链接
链接失效反馈
资源简介:
Enigmata-Data包含36个不同的任务类型,涵盖7类逻辑推理谜题。每个任务都配有生成器和验证器,生成器可以产生无限数量的谜题实例,并精确控制难度参数,验证器提供自动的、基于规则的解决方案验证。

Enigmata-Data encompasses 36 distinct task types, covering 7 categories of logical reasoning puzzles. Each task is accompanied by a generator and a validator; the generator is capable of producing an infinite number of puzzle instances while precisely controlling difficulty parameters, and the validator provides automatic, rule-based solution verification.
创建时间:
2025-05-27
原始信息汇总

Enigmata数据集概述

数据集简介

  • 名称:Enigmata
  • 类型:逻辑推理谜题数据集
  • 目标:提升大语言模型的逻辑推理能力
  • 特点
    • 首个专注于谜题推理能力的综合套件
    • 支持基于规则的可验证奖励的强化学习

数据集组成

Enigmata-Data

  • 任务数量:36个
  • 任务类别:7类
  • 核心组件
    • 生成器:可生成无限量实例,支持难度控制
    • 验证器:提供基于规则的自动验证
  • 优势
    • 无限自验证数据
    • 可控难度
    • 灵活的任务采样

Enigmata-Eval

  • 基准测试规模:4,758个谜题实例
  • 难度级别:Easy、Medium、Hard
  • 数据划分:严格的训练-评估分离

模型训练与应用

训练方法

  • 两阶段训练
    1. 拒绝微调(RFT)
    2. 多任务强化学习(带可验证奖励)
  • 代表性模型:Qwen2.5-32B-Enigmata

性能表现

  • 优势领域:密码学、算术、逻辑任务
  • 挑战领域:空间和顺序任务
  • 泛化能力:在AIME、GPQA Diamond等高级推理任务中表现优异

数据与模型资源

引用

bibtex @article{2025enigmata, title={Enigmata: Scaling Logical Reasoning in Large Language Models with Synthetic Verifiable Puzzles}, author={Jiangjie Chen, Qianyu He, Siyu Yuan, Aili Chen, Zhicheng Cai, Weinan Dai, Hongli Yu, Qiying Yu, Xuefeng Li, Jiaze Chen, Hao Zhou, Mingxuan Wang}, journal={arXiv preprint arXiv:2505.19914}, year={2025} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
在逻辑推理与大型语言模型研究领域,Enigmata-Data通过创新性的生成器-验证器架构构建而成。该数据集涵盖7大类36项任务,每项任务均配备可编程控制的生成器模块,能够按需生成无限量且难度可调的谜题实例,同时集成基于规则的验证器实现自动化解决方案校验。这种双组件设计不仅支持多任务强化学习的无缝集成,还能通过精确控制难度参数实现细粒度的课程学习实验。
特点
Enigmata-Data的核心特征体现在其可扩展性与验证可靠性上。数据集通过动态生成机制突破传统静态数据集的规模限制,每个谜题实例均附带可验证的规则化答案,为强化学习提供即时反馈。独特的难度调控系统支持从基础算术到复杂密码学的全频谱逻辑挑战,而跨任务采样灵活性则为研究模型迁移能力提供了实验基础。可视化分析表明,该数据集能有效提升模型在空间推理和序列预测等传统薄弱环节的表现。
使用方法
该数据集支持端到端的逻辑推理能力开发流程。研究者可通过调用标准化API生成特定难度分布的谜题集合,配合内置验证器实现训练过程的实时质量监控。评估阶段提供标准化测试套件Enigmata-Eval,包含4758个分层验证样本,通过命令行工具即可执行自动化性能分析。实践表明,将该数据集与两阶段训练方案(拒绝微调+多任务强化学习)结合,能显著提升模型在STEM领域复杂推理任务的泛化性能。
背景与挑战
背景概述
Enigmata-Data是由字节跳动与清华大学SIA实验室联合研发的创新型数据集,旨在推动大语言模型在逻辑推理领域的研究。该数据集于2025年正式发布,核心研究团队包括Jiangjie Chen等多位学者。作为首个专注于谜题推理能力的综合数据集,Enigmata-Data包含7大类36种任务类型,通过生成器-验证器的独特设计架构,实现了无限量、可验证的谜题数据生成。该数据集通过强化学习与可验证奖励机制相结合的方式,显著提升了Qwen2.5-32B等模型在ARC-AGI等复杂推理基准上的表现,并为AIME、GPQA等高级数学与STEM推理任务提供了可迁移的推理能力。
当前挑战
Enigmata-Data面临的核心挑战主要体现在两个方面:在领域问题层面,如何构建能够全面评估大语言模型复杂逻辑推理能力的任务体系,特别是在空间推理和序列推理等薄弱环节仍存在显著性能差距;在构建过程层面,需要精确设计可编程难度控制的生成器算法,确保每个谜题实例都具备可验证的解决方案,同时维持任务间的难度平衡与领域多样性。此外,将合成谜题数据有效整合到多任务强化学习框架中,并实现与现有数学推理能力的协同优化,也是该数据集面临的重要技术挑战。
常用场景
经典使用场景
在人工智能领域,Enigmata-Data数据集为大型语言模型的逻辑推理能力提升提供了重要支持。该数据集通过生成可验证的合成谜题,广泛应用于模型训练和评估,特别是在多任务强化学习框架中。研究人员利用其可控难度和自动验证机制,能够系统地探索模型在不同复杂度谜题上的表现,从而优化推理能力。
解决学术问题
Enigmata-Data解决了大型语言模型在逻辑推理任务中泛化能力不足的学术难题。通过提供多样化的谜题类别和自动验证机制,该数据集支持模型在规则推理、数学问题和空间逻辑等任务上的性能提升。其生成器-验证器设计不仅确保了数据的可扩展性,还为研究课程学习对强化学习的影响提供了实验基础。
衍生相关工作
围绕Enigmata-Data衍生的经典工作包括Qwen2.5-32B-Enigmata模型的开发及其在多任务强化学习中的应用。此外,Seed1.5-Thinking等大规模模型通过集成该数据集的谜题数据,在数学和STEM推理任务中实现了性能突破。相关研究还探索了课程学习与自动验证机制对模型推理能力的影响,推动了逻辑推理模型的进一步发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

UIEB, U45, LSUI

本仓库提供了水下图像增强方法和数据集的实现,包括UIEB、U45和LSUI等数据集,用于支持水下图像增强的研究和开发。

github 收录

ACPBench Hard

ACPBench Hard数据集是基于ACPBench构建的,由IBM Research创建。该数据集包含7种不同类型的推理任务,旨在将复杂的计划生成任务分解为独立的原子推理任务,以布尔问题或选择题的形式出现。ACPBench Hard是这些任务的生成版本,要求模型回答开放性问题。数据集适用于评估大型语言模型在自动规划器中作为组件的可靠性,涵盖多种规划领域,以帮助构建更高效的规划模型。

arXiv 收录

新疆-中亚矿产资源分布及其潜力评估(2018.1-2021.12)

1) 数据内容:本数据库包含空间范围:①我国青藏高原、新疆;②中亚(哈萨克斯坦、吉尔吉斯斯坦、塔吉克斯坦、乌兹别克斯坦);③西亚(巴基斯坦、阿富汗、伊朗);④东南亚(泰国、越南、老挝、缅甸、柬埔寨)。数据内容主要有:①1:500万地质数据集(地质体和构造);②1:100万各国地质矿产数据集(地质体、构造、矿产);②金属矿产数据集(矿床、矿点、矿化点);③新疆-中亚成矿地质背景数据集(岩石建造组合、构造分区、成矿区带、远景区、靶区、矿产);主要图件包括:泛第三极地质矿产图(1:500万)、中亚四国地质矿产图(1:150万)、巴基斯坦地质矿产图(1:100万)、阿富汗地质矿产图(1:100万)、伊朗地质矿产图(1:100万)、中国新疆-中亚廊带地质矿产图(1:250万)、中国新疆-中亚廊带成矿规律图(1:250万)、我国青藏高原地质矿产图(1:150万)。空间数据库采用ArcGIS平台,可为区域成矿规律研究、资源潜力评估、战略远景区圈定以及各类专题图件编制提供基础数据支撑。数据库格式为文件数据库(.GDB),图件包括工程文件(MXD)和栅格图(JPG),也可根据需要生成各类常见图形格式(PDF、TIF、EPS等)。泛第三极全区(1:500万)采用兰伯特等形圆锥投影,中央经线为东经84度,双纬分别为20度和55度。中国新疆-中亚廊带地质矿产数据采用兰伯特等形圆锥投影,中央经线为东经75度,双纬分别为30度和50度。中亚和西亚主要国别1:100万地质矿产数据采用采用兰伯特等形圆锥投影,中央经线和双纬根据各国所在位置具体确定。 2) 数据来源及加工方法;基础地质数据主要来源于任继舜院士编亚洲地质图(2015)(1:500万)、中欧亚构造成矿图和地质图(2008)(1:250万)、域内各国地质调查部门地质图(1:100万);②矿产数据主要来源包括全国矿产资源潜力评价项目成果(2012)、英国伦敦自然历史博物馆中亚矿产数据库及专题图(2014)、美国地质调查局阿富汗数据集(2008)、域内各国地质调查部门相关资料数据、域内矿产相关论文论著。此外,为满足各类数据修改及完善大量采用遥感数据,具体包括:ETM+、OLI、ASTER、Worldview等影像数据以及90m、30米、12.5mDEM数据等。 3) 数据质量描述;为满足泛第三极区域成矿规律研究、地质矿产图和成矿预测图编制需要,在数据空间准确性、逻辑一致性和数据完整性方面进行编辑、处理以及补充完善。具体包括:①矢量化,基于前述资料进行了大量矢量化工作,用于补充数字资料缺失区域(伊朗、巴基斯坦),同时根据资料更新程度合并、分割各类面要素和线要素,矢量化工作按照我国相关规范要求比例尺精度要求下完成;②拓扑处理,消除重叠面、空区等拓扑错误;③完善要素属性结构和补充要素属性内容,围绕区域成矿规律研究、地质矿产图和成矿预测图编制目标,依据我国相关规范,结合具体资料和数据内容,建立了相应数据模型,完善了地质体、构造、矿产要素类属性结构并完成了相应属性的填写工作;④基于以上数据处理内容,结合泛第三极研究成果和最新认识,对区内相关地质内容进行了进一步修改和完善。 4) 数据应用成果及前景:泛第三极地质矿产数据库主要服务于泛第三极全区、重要成矿带以及国别区域成矿规律研究、地质矿产图和成矿预测图编制,比例尺为1:500万(泛第三极全区)、1:250万(中国新疆-中亚廊带)、1:100万(重要成矿带、中西亚各国别)。

国家青藏高原科学数据中心 收录

N-Caltech 101 (Neuromorphic-Caltech101)

The Neuromorphic-Caltech101 (N-Caltech101) dataset is a spiking version of the original frame-based Caltech101 dataset. The original dataset contained both a "Faces" and "Faces Easy" class, with each consisting of different versions of the same images. The "Faces" class has been removed from N-Caltech101 to avoid confusion, leaving 100 object classes plus a background class. The N-Caltech101 dataset was captured by mounting the ATIS sensor on a motorized pan-tilt unit and having the sensor move while it views Caltech101 examples on an LCD monitor as shown in the video below. A full description of the dataset and how it was created can be found in the paper below. Please cite this paper if you make use of the dataset.

Papers with Code 收录