five

CreativeBench

收藏
github2026-03-13 更新2026-03-24 收录
下载链接:
https://github.com/ZethWang/CreativeBench
下载链接
链接失效反馈
官方服务:
资源简介:
CreativeBench是一个开源基准测试和数据合成框架,专注于创造性代码生成,包含两个互补的管道:组合(逆向工程)和探索(自我游戏)。该框架旨在提供可重现和可扩展的创造性代码生成任务,支持跨领域代码重组和渐进约束自我游戏,以产生多样化的解决方案。

CreativeBench is an open-source benchmarking and data synthesis framework focused on creative code generation, which includes two complementary pipelines: Composition (Reverse Engineering) and Exploration (Self-Play). This framework is designed to provide reproducible and scalable creative code generation tasks, supporting cross-domain code recombination and progressively constrained self-play to generate diverse solutions.
创建时间:
2026-03-11
原始信息汇总

CreativeBench 数据集概述

数据集基本信息

  • 数据集名称:CreativeBench
  • 核心定位:一个用于创造性代码生成的基准测试和数据合成框架。
  • 主要特点:包含组合(Combo)和探索(Explore)两条互补的流水线,用于在组合性和探索性设置下生成创造性代码。

数据集内容与结构

  • 数据内容:包含问题陈述、参考解决方案、公开测试、全面测试、编程语言和难度标签。
  • 数据格式:JSONL格式。
  • 字段定义
    • question:问题陈述。
    • canonical_solution:参考解决方案。
    • demo_test_func:公开测试。
    • full_test_func:全面测试。
    • language:编程语言。
    • difficulty:难度标签。
  • 项目结构
    • CreativeGen/:包含组合流水线(combo/)和探索流水线(explore/)。
    • datasets-subset/:存放采样数据集。
    • evaluation/:评估工具。
    • inference/:推理工具。

数据生成流水线

组合流水线(Combo,逆向工程)

  • 目标:通过跨领域代码重组和沙箱反馈,合成具有已验证测试的新任务。

  • 流程概述

    1. 选择领域对并构建组合提示。
    2. 生成组合解决方案。
    3. 在沙箱中验证。
    4. 利用反馈修复失败的解决方案。
    5. 生成测试和问题。
    6. 格式化最终数据集。
  • 运行命令示例: bash bash CreativeGen/combo/run_combo_pipeline.sh 5 3 /path/to/input.jsonl

  • 输出位置CreativeGen/combo/runs/run_YYYYMMDD_HHMMSS/

  • 关键产出文件

    • combo_final_success.jsonl
    • test_func.jsonl
    • combo_final_dataset.jsonl
    • combo_final_formatted.jsonl

探索流水线(Explore,自我对弈)

  • 目标:通过渐进式约束的自我对弈,鼓励超越基线的多样化解决方案策略。

  • 流程概述

    1. 将源数据集过滤为仅目标语言(如Python)。
    2. 识别基线解决方案中的关键技术。
    3. 添加渐进式约束。
    4. 生成受约束的解决方案。
    5. 验证合规性并运行沙箱验证。
    6. 计算创造力分数。
    7. 将结果转换为推理就绪的扁平数据集。
  • 运行命令示例: bash bash CreativeGen/explore/run_explore_pipeline.sh /path/to/autocodebench.jsonl

  • 输出位置

    • CreativeGen/explore/runs/run_YYYYMMDD_HHMMSS/(包含分析结果与图表)。
    • CreativeGen/explore/data/converted/*_infer_*.jsonl(推理就绪数据集)。

评估与验证

  • 沙箱验证:如果沙箱服务器正在运行,可以使用提供的工具验证解决方案。
  • 验证命令示例: bash python3 CreativeGen/combo/src/call_sandbox.py --input_file path/to/data.jsonl --output path/to/output.jsonl --solution_key canonical_solution

获取与引用

  • 数据集地址:https://huggingface.co/datasets/Zethive/CreativeBench
  • 论文地址:https://arxiv.org/abs/2603.11863
  • 项目主页:https://zethwang.github.io/creativebench.github.io/
  • 许可证:MIT License
  • 引用格式: bibtex @misc{wang2026creativebenchbenchmarkingenhancingmachine, title={CreativeBench: Benchmarking and Enhancing Machine Creativity via Self-Evolving Challenges}, author={Zi-Han Wang and Lam Nguyen and Zhengyang Zhao and Mengyue Yang and Chengwei Qin and Yujiu Yang and Linyi Yang}, year={2026}, eprint={2603.11863}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2603.11863}, }
搜集汇总
数据集介绍
main_image_url
构建方式
在代码生成领域,评估模型创造力需要超越传统基准的复杂任务。CreativeBench通过两个互补的管道构建数据集:组合管道采用逆向工程方法,从不同领域选取解决方案进行交叉重组,生成新颖问题后通过沙箱验证和测试生成确保质量;探索管道则基于自博弈机制,对源数据集施加渐进式约束,引导模型产生多样化的解决策略,并通过合规性检查和沙箱验证筛选有效样本。这种双管齐下的构建方式,系统性地合成了兼具正确性与创新性的编程任务。
特点
该数据集的核心特征在于其专注于创造性代码生成,旨在衡量模型在全新约束或跨领域重组情境下产出新颖且正确解决方案的能力。数据集不仅包含问题描述、规范解决方案和公开测试用例,还提供了全面的测试函数以及难度标签,结构清晰完整。其独特之处在于通过组合与探索两条路径,分别从横向重组与纵向深化两个维度激发创造力,为模型评估提供了多角度、可复现的基准框架,并支持向其他编程语言或模型扩展。
使用方法
研究人员可通过Hugging Face平台直接获取CreativeBench数据集,并利用其提供的JSONL格式资源进行模型训练与评估。数据集中的每个样本均包含可直接用于推理的问题陈述与测试函数。项目仓库还提供了完整的流水线脚本,用户可运行组合或探索管道以复现数据生成过程,或利用评估工具在沙箱环境中验证解决方案的正确性。这种设计使得该数据集既能作为静态基准用于性能评测,也能作为动态框架支持新的创造性任务合成。
背景与挑战
背景概述
在人工智能与代码生成领域,评估模型创造性能力长期面临缺乏标准化基准的困境。CreativeBench数据集于2026年由Zi-Han Wang等研究人员提出,旨在系统性地评测和增强机器在代码生成任务中的创造性表现。该数据集通过组合与探索两条互补的生成路径,构建了涵盖跨领域重组与渐进约束的新型编程问题,为核心研究问题——即如何量化并提升机器学习模型的创造性代码生成能力——提供了可复现的评估框架。其创新性的自演进挑战设计,为代码生成领域引入了新的研究方向,推动了创造性人工智能的实证研究进展。
当前挑战
CreativeBench致力于解决创造性代码生成领域的核心挑战,即如何定义并衡量机器学习模型在解决新颖、复杂编程任务时表现出的创造性与泛化能力。构建过程中面临多重技术难题:其一,跨领域代码组合需确保生成问题的逻辑一致性与可执行性,这依赖于可靠的沙箱验证机制;其二,在自演进路径中,设计渐进约束以引导模型产生多样化解法策略,同时维持问题的合理性与评估的公平性,涉及复杂的算法设计与质量控制。此外,数据合成框架需平衡生成效率与问题多样性,确保基准的广泛适用性与科学严谨性。
常用场景
经典使用场景
在人工智能驱动的代码生成领域,CreativeBench数据集被广泛应用于评估和提升模型在创造性编程任务中的表现。其经典使用场景集中于通过组合与探索两条互补的管道,系统性地构建新颖且具有挑战性的代码生成问题。研究者利用该数据集,能够模拟模型在面对跨领域知识重组或渐进式约束演化时的应对能力,从而深入剖析其创造性思维和问题解决策略的边界与潜力。
实际应用
在实际应用层面,CreativeBench为开发更智能的编程辅助工具和代码自动生成系统提供了关键的训练与评估资源。教育科技领域可借助其生成的多样化编程问题,设计自适应学习路径以提升学习者的创造性编程能力。在软件工程实践中,该数据集有助于训练模型生成超出模板化、更具创新性的代码解决方案,从而提升开发效率与代码质量,应对复杂多变的现实编程需求。
衍生相关工作
围绕CreativeBench数据集,已衍生出一系列关注机器创造力的经典研究工作。这些工作主要沿两个方向展开:一是基于其组合管道,研究跨领域代码知识的融合与迁移学习,催生了新型的代码合成方法;二是借鉴其探索管道中的渐进约束机制,发展出旨在激发模型产生多样化解决方案的算法。这些研究共同深化了对生成式模型创造性潜力的理解,并推动了代码生成基准向更复杂、更贴近人类创新过程的维度演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作