CREATIVITYPRISM
收藏arXiv2025-10-23 更新2025-11-05 收录
下载链接:
https://www.kaggle.com/datasets/a916e717ce0375e9ca3e31a53d1f4b37f29266057027e3bfb0140b31cc6dcc21
下载链接
链接失效反馈官方服务:
资源简介:
CREATIVITYPRISM是一个全面的评估框架,用于评估大型语言模型(LLM)的创造力。该框架将创造力分解为三个维度:质量、新颖性和多样性,并包含了九个任务、三个领域以及二十个评估指标。CREATIVITYPRISM旨在提供一个全面的评估,以捕捉LLM在逻辑推理、创意写作和发散思维等不同领域的创造力表现。
CREATIVITYPRISM is a comprehensive evaluation framework for assessing the creativity of Large Language Models (LLMs). This framework decomposes creativity into three dimensions: quality, novelty, and diversity, and encompasses nine tasks, three domains, and twenty evaluation metrics. CREATIVITYPRISM aims to deliver a comprehensive evaluation that captures the creative performance of LLMs across diverse domains such as logical reasoning, creative writing, and divergent thinking.
提供机构:
University of Pittsburgh, University of Notre Dame, University of Massachusetts Amherst, Johns Hopkins University, University of North Carolina at Chapel Hill, Allen Institute for Artificial Intelligence, University of Washington
创建时间:
2025-10-23
搜集汇总
数据集介绍

构建方式
在人工智能创造力评估领域,CREATIVITYPRISM通过整合心理学与计算语言学方法构建了多维评估框架。该数据集从三个认知领域(发散思维、创意写作与逻辑推理)系统收集了九类任务,包括经典心理学测试(如DAT和AUT)及复杂生成任务(如NeoCoder编程题与创意故事写作)。数据构建过程严格遵循原始研究的实验设计,通过标准化提示工程激发模型生成响应,并采用自动化与人工验证相结合的方式确保数据质量,最终形成包含数千条跨领域生成样本的基准集合。
特点
CREATIVITYPRISM的突出特点在于其三维度创造力解构框架,将抽象创造力量化为质量、新颖性与多样性三大可计算维度。数据集覆盖了从词汇级发散性(如DAT的语义距离计算)到篇章级叙事创新(如CS4的多约束故事生成)的多层次评估场景。其二十项指标经过跨任务归一化处理,既能独立反映特定创造力特质,又可通过聚合分数呈现整体创造力轮廓。此外,该基准通过控制模型参数与提示策略,有效分离了模型规模与训练数据对创造力的影响,为横向比较不同架构的LLM提供了科学依据。
使用方法
使用CREATIVITYPRISM进行评估时,研究者需首先根据任务规范对目标模型进行零样本或少样本推理,生成对应领域的文本输出。随后采用数据集内置的自动化评估流程,通过标准化指标(如L-uniqueness计算文本独创性、LLM-as-a-Judge评估叙事质量)对生成内容进行多维度量化。评估结果可按任务领域、创造力维度或模型类型进行分层分析,支持相关性研究(如质量与多样性的耦合关系)和差距诊断(如开源与闭源模型在逻辑推理任务的表现差异)。该基准还提供分数归一化与聚合工具,便于研究者构建自定义的创造力评估指标体系。
背景与挑战
背景概述
CREATIVITYPRISM数据集于2025年提出,由匹兹堡大学、圣母大学、麻省大学阿默斯特分校及艾伦人工智能研究所等机构的研究人员联合开发。该数据集旨在解决大型语言模型在创造力评估领域的核心问题,即缺乏一个全面、统一的框架来衡量模型在多场景下的创造性表现。受心理学中创造力多维性假设的启发,研究团队将创造力分解为质量、新颖性和多样性三个维度,并设计了涵盖发散思维、创意写作和逻辑推理三大领域的九项任务。这一框架通过整合二十种评估指标,系统性地捕捉模型在不同创造力维度的表现,填补了现有评估方法碎片化的空白,为机器创造力的科学量化奠定了重要基础。
当前挑战
CREATIVITYPRISM面临的挑战主要体现在两个方面:其一,在解决领域问题的过程中,现有评估方法难以兼顾创造力的多维度特性,例如创意写作任务强调语义连贯性,而逻辑推理任务则要求解决方案的原创性,导致跨领域评估结果不一致;其二,在数据集构建过程中,自动评估的可扩展性与人类判断的对齐成为主要难点,六项任务依赖语言模型作为评判工具,可能引入模型偏见,且高概念新颖性指标因缺乏可靠自动化方法而未被纳入,限制了评估的全面性。
常用场景
经典使用场景
在人工智能创造力评估领域,CREATIVITYPRISM数据集通过构建发散思维、创意写作与逻辑推理三大任务域,为大型语言模型的创造性能力提供标准化测试平台。该数据集常被用于系统化比较不同模型在生成多样性内容时的表现,例如通过替代用途测试评估日常物品的创新应用方案,或通过数学推理任务检验模型突破传统解题框架的能力。
解决学术问题
该数据集有效解决了创造力评估中定义碎片化与度量标准不统一的学术难题。通过将创造力解构为质量、新颖性与多样性三个维度,并设计二十种跨领域评估指标,研究者得以量化分析模型在生成内容的连贯性、原创性与变异度之间的平衡关系。这种多维度框架为理解机器创造力的本质提供了可复现的实证基础,推动了认知科学与计算语言学在创造力建模领域的交叉融合。
衍生相关工作
该基准已催生多项创新性研究,例如基于三维度评分体系的模型微调方法开发,以及针对特定领域创造力提升的迁移学习技术。部分研究者通过分析不同模型在维度间的相关性差异,提出了创造力特质解耦训练策略;另有工作借鉴其任务设计思路,构建了面向专业领域的垂直创造力评估基准,持续推动着机器创造力研究向纵深发展。
以上内容由遇见数据集搜集并总结生成



