MUCE

Name: MUCE
Creator: 苏黎世联邦理工学院, 瑞士意大利大学, 宾夕法尼亚州立大学
Published: 2025-05-20 22:43:41
License: 暂无描述

arXiv2025-05-20 更新2025-05-22 收录

下载链接：

http://arxiv.org/abs/2505.14442v1

下载链接

链接失效反馈

官方服务：

资源简介：

MUCE是一个大规模的偏好数据集，包含超过20万个人类生成的回复和超过30个心理学创造力评估的评分。该数据集由全球创造力研究社区的43%未公开发布的数据组成，确保了数据的新颖性和独特性。每个回复都由至少两位评分者进行创造力评分，并采用遗传算法筛选出最具有信息量的评分者，以提高评分质量。MUCE旨在为训练偏好模型提供有效的人类创造力数据，并为语言模型创造力的提升提供支持。

MUCE is a large-scale preference dataset encompassing over 200,000 human-generated responses and more than 30 psychology-based creativity assessment scores. 43% of the data within MUCE originates from unpublished materials sourced from the global creativity research community, ensuring the novelty and uniqueness of the dataset. Each response is rated for creativity by at least two raters, and a genetic algorithm is employed to screen out the most informative raters to improve the quality of the assessment scores. MUCE is designed to provide valid human creativity data for training preference models, and to support the enhancement of creativity in language models.

提供机构：

苏黎世联邦理工学院, 瑞士意大利大学, 宾夕法尼亚州立大学

创建时间：

2025-05-20

搜集汇总

数据集介绍

构建方式

MUCE数据集的构建采用了多源数据整合与严格的质量控制流程。研究团队通过全球创造力研究社区众包和开放科学平台OSF的数据挖掘，收集了来自43项未公开研究的心理学创造力评估数据，确保数据来源的学术可靠性。采用遗传算法优化评分者选择，通过Judge Response Theory剔除低信息量评分，最终形成包含20万条多语言标注响应的数据集。数据经过因子分析转换和10-50分的标准化处理，并划分训练集、验证集及三类分布外测试集（OOD-i/OOD-l/OOD-t）以全面评估模型泛化能力。

特点

MUCE的核心特征体现在其多维创造力评估体系与心理测量有效性。数据集覆盖30余种标准化创造力任务，包括现实问题解决、隐喻生成等，每个响应均经过2-75名评分者的多维度创造力评估（新颖性、多样性、惊喜度、质量）。其独特价值在于：1）整合心理学经典评估工具如替代用途任务(AUT)，确保测量效度；2）通过因子分转换消除评分者偏差，保留原始评分分布；3）包含4.3%未公开数据，避免LLM训练数据污染。数据规模与质量使其成为目前最具心理学依据的创造力偏好数据集。

使用方法

使用MUCE需遵循其多阶段评估框架。研究者可：1）通过监督微调（SFT）基础模型适应创造力任务分布；2）采用CRPO方法将四维创造力信号注入偏好优化目标，其中新颖性使用语义差异度量，惊喜度采用香农困惑度，质量依赖奖励模型；3）在OOD测试集评估时需控制生成长度（如隐喻任务限10词），采用温度采样组合（0.7-0.9温度+top-k/p采样）激发多样性。对于人类评估，建议选择自动化创造力总分前4的响应进行盲测，并使用Krippendorff's α检验评分者一致性。

背景与挑战

背景概述

MUCE（Multitask Creativity Evaluation）是由Mete Ismayilzada等研究人员于2025年提出的一个大规模人类偏好数据集，旨在评估和提升大型语言模型（LLMs）的创造力。该数据集包含超过200,000条人类生成的回答和评分，覆盖30多种心理学创造力评估任务。MUCE的创建是为了解决现有方法在提升LLM创造力时过于单一的问题，其核心研究问题是如何通过多维度创造力信号（如新颖性、多样性、惊喜性和质量）优化语言模型的生成能力。MUCE的推出为创造力研究领域提供了重要的数据支持，推动了LLM在创造性任务中的应用。

当前挑战

MUCE面临的挑战主要包括两方面：领域问题的挑战和构建过程的挑战。在领域问题方面，MUCE旨在解决LLM生成内容缺乏真正创造力（如新颖性、多样性和惊喜性）的问题，但如何平衡创造力与生成质量仍是一个难题。在构建过程中，数据集的创建需要处理多语言、多任务的人类评分数据，确保评分的可靠性和一致性。此外，如何有效整合不同创造力维度的信号并避免评分偏差也是构建过程中的主要挑战。

常用场景

经典使用场景

MUCE数据集作为大规模人类创造力评估数据集，其经典使用场景主要集中在自然语言生成任务中，特别是在需要评估和提升大型语言模型（LLMs）创造力的研究中。研究人员利用MUCE数据集中的多维度创造力评分（如新颖性、多样性、惊喜性和质量）来训练和优化模型，例如通过Creative Preference Optimization (CRPO)方法，将创造力信号注入偏好优化目标中。这一场景不仅涵盖了传统的创造性写作任务（如故事生成和诗歌创作），还包括了更具挑战性的创造性问题解决和隐喻生成等任务。

实际应用

在实际应用中，MUCE数据集被广泛用于开发和优化面向创造性任务的AI工具。例如，在广告创意生成、教育领域的创造性写作辅助工具以及娱乐产业的故事创作中，基于MUCE训练的模型能够生成更具新颖性和多样性的内容。此外，数据集还被用于评估商业LLM（如GPT-4o和Claude-3.7）的创造力表现，帮助企业和研究机构选择适合其创造性需求的模型。MUCE的实际应用不仅提升了AI生成内容的创造力，还为人类与AI在创造性任务中的协作提供了新的可能性。

衍生相关工作

MUCE数据集衍生了一系列经典研究工作，主要集中在创造力优化和多维度评估领域。例如，基于MUCE的CRPO方法被扩展用于多语言创造力评估（如西班牙语任务）和更大规模模型的训练。此外，数据集还启发了NOVELTYBENCH等外部基准的构建，进一步推动了创造力评估的标准化。其他衍生工作包括探索创造力与模型安全性之间的平衡（如减少毒性生成）以及将MUCE的评分框架应用于其他生成任务（如音乐和艺术生成）。这些工作共同推动了AI创造力研究的边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集