CreataSet

Name: CreataSet
Creator: 中国人民大学, 北京师范大学, 快手科技
Published: 2025-05-26 01:25:23
License: 暂无描述

arXiv2025-05-26 更新2025-05-28 收录

下载链接：

https://creval-creative-evaluation.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

CreataSet是一个大规模的数据集，包含超过100K+的人机级和1M+的合成创造性指令-响应对，跨越多种开放领域的任务。通过在CreataSet上进行训练，开发了一个名为CrEval的基于LLM的评估器。CreataSet通过训练人类生成的和合成数据，解决了数据稀缺的问题，并通过共享上下文指令来提高评估一致性。

CreataSet is a large-scale dataset comprising over 100,000 human-generated and 1,000,000+ synthetic creative instruction-response pairs across diverse open-domain tasks. Training on CreataSet enabled the development of CrEval, an LLM-based evaluator. CreataSet resolves the issue of data scarcity by incorporating both human-generated and synthetic training data, and enhances evaluation consistency via shared contextual instructions.

提供机构：

中国人民大学, 北京师范大学, 快手科技

创建时间：

2025-05-26

搜集汇总

数据集介绍

构建方式

CreataSet数据集的构建采用了多源数据整合与标准化流程。研究团队从Oogiri-GO、Ruozhiba等现有创意数据集中收集初始数据，并通过逆向指令生成技术将诗歌、歌词等独立文本转化为标准化的指令-响应对。为确保数据质量，采用GPT-4o-mini进行创意评分过滤，保留评分高于4的优质样本。通过控制不同能力模型（如Qwen2.5-14B和MiniCPM-2B）的响应生成过程，使用普通提示（Prompto）和创意提示（Promptc）生成多层级创意响应，最终构建包含87个领域、超过100万样本的大规模数据集。

特点

该数据集具有显著的跨领域覆盖性和创意层次多样性。其核心优势体现在：领域覆盖87个子领域，包含文学（38.3%）、艺术（16.2%）等主要类别；响应长度呈多峰分布，短文本至散文等长文本兼备；采用人工标注与弱监督混合标注策略，确保3000+测试样本具有高标注一致性（ICC=0.92）。特别设计的上下文感知框架使响应对比较的标注一致性从ICC=0.59提升至0.75，有效解决了创意评估中的语境依赖问题。

使用方法

数据集支持两种主要应用范式：作为基准测试集时，研究者可使用其3000+人工标注样本评估模型创意判断能力；作为训练资源时，可通过弱监督标签构建创意比较对（I,R1,R2,y）训练评估模型。配套的CrEval评估器采用LoRA增强的Qwen2.5-14B架构，通过指令微调实现跨领域创意比较，支持响应级创意评分和生成优化。实验表明，将30%困难样本纳入DPO训练能最大化模型创意提升效果。

背景与挑战

背景概述

CreataSet是由中国人民大学、北京师范大学和快手技术的研究团队于2025年提出的一个大规模跨领域文本创造力评估数据集。该数据集旨在解决大语言模型(LLMs)创造力评估的关键挑战，包含超过10万个人工标注和100万条合成生成的创意指令-响应对，涵盖87个不同领域。数据集的核心创新在于提出了基于上下文感知的成对比较评估框架，显著提高了创造力评估的一致性和可靠性。CreataSet的建立标志着文本创造力评估从依赖低效人工评判向自动化、可扩展评估的重要转变，为提升生成式AI的创造力提供了新的研究范式和基准工具。

当前挑战

CreataSet面临的挑战主要体现在两个维度：领域问题上，现有创造力评估方法存在跨领域适用性差、评估粒度粗糙和自动化效果有限等问题，难以准确衡量开放域文本的创造力水平；构建过程中，数据集面临人类标注一致性低(ICC=0.59)和创意数据稀缺的双重困境。研究团队通过引入共享上下文指令将标注一致性提升至ICC=0.75，同时采用弱监督方式生成大规模伪标签数据，有效解决了数据稀缺问题。此外，如何平衡不同创意表现形式(如幽默、诗歌、散文等)的评估标准，以及确保评估模型在不同文本长度下的稳定性，也是构建过程中需要克服的技术难点。

常用场景

经典使用场景

CreataSet数据集在自然语言处理领域中被广泛用于评估文本创造力。该数据集通过提供多样化的创意指令-响应对，支持研究人员在大规模、多领域环境下测试和优化大型语言模型（LLMs）的创造力生成能力。其经典使用场景包括创意写作、幽默生成以及诗歌创作等任务，这些任务要求模型不仅能够生成语法正确的文本，还需具备新颖性和创造性。

衍生相关工作

基于CreataSet，研究人员开发了CrEval，这是首个能够跨多个领域进行成对创造力评估的LLM-based评估器。此外，该数据集还催生了一系列相关研究，包括如何利用合成数据增强模型创造力、如何通过负采样优化评估器的鲁棒性等。这些工作进一步推动了自动化创造力评估领域的发展。

数据集最近研究