five

CreataSet

收藏
arXiv2025-05-26 更新2025-05-28 收录
下载链接:
https://creval-creative-evaluation.github.io/
下载链接
链接失效反馈
官方服务:
资源简介:
CreataSet是一个大规模的数据集,包含超过100K+的人机级和1M+的合成创造性指令-响应对,跨越多种开放领域的任务。通过在CreataSet上进行训练,开发了一个名为CrEval的基于LLM的评估器。CreataSet通过训练人类生成的和合成数据,解决了数据稀缺的问题,并通过共享上下文指令来提高评估一致性。

CreataSet is a large-scale dataset comprising over 100,000 human-generated and 1,000,000+ synthetic creative instruction-response pairs across diverse open-domain tasks. Training on CreataSet enabled the development of CrEval, an LLM-based evaluator. CreataSet resolves the issue of data scarcity by incorporating both human-generated and synthetic training data, and enhances evaluation consistency via shared contextual instructions.
提供机构:
中国人民大学, 北京师范大学, 快手科技
创建时间:
2025-05-26
搜集汇总
数据集介绍
main_image_url
构建方式
CreataSet数据集的构建采用了多源数据整合与标准化流程。研究团队从Oogiri-GO、Ruozhiba等现有创意数据集中收集初始数据,并通过逆向指令生成技术将诗歌、歌词等独立文本转化为标准化的指令-响应对。为确保数据质量,采用GPT-4o-mini进行创意评分过滤,保留评分高于4的优质样本。通过控制不同能力模型(如Qwen2.5-14B和MiniCPM-2B)的响应生成过程,使用普通提示(Prompto)和创意提示(Promptc)生成多层级创意响应,最终构建包含87个领域、超过100万样本的大规模数据集。
特点
该数据集具有显著的跨领域覆盖性和创意层次多样性。其核心优势体现在:领域覆盖87个子领域,包含文学(38.3%)、艺术(16.2%)等主要类别;响应长度呈多峰分布,短文本至散文等长文本兼备;采用人工标注与弱监督混合标注策略,确保3000+测试样本具有高标注一致性(ICC=0.92)。特别设计的上下文感知框架使响应对比较的标注一致性从ICC=0.59提升至0.75,有效解决了创意评估中的语境依赖问题。
使用方法
数据集支持两种主要应用范式:作为基准测试集时,研究者可使用其3000+人工标注样本评估模型创意判断能力;作为训练资源时,可通过弱监督标签构建创意比较对(I,R1,R2,y)训练评估模型。配套的CrEval评估器采用LoRA增强的Qwen2.5-14B架构,通过指令微调实现跨领域创意比较,支持响应级创意评分和生成优化。实验表明,将30%困难样本纳入DPO训练能最大化模型创意提升效果。
背景与挑战
背景概述
CreataSet是由中国人民大学、北京师范大学和快手技术的研究团队于2025年提出的一个大规模跨领域文本创造力评估数据集。该数据集旨在解决大语言模型(LLMs)创造力评估的关键挑战,包含超过10万个人工标注和100万条合成生成的创意指令-响应对,涵盖87个不同领域。数据集的核心创新在于提出了基于上下文感知的成对比较评估框架,显著提高了创造力评估的一致性和可靠性。CreataSet的建立标志着文本创造力评估从依赖低效人工评判向自动化、可扩展评估的重要转变,为提升生成式AI的创造力提供了新的研究范式和基准工具。
当前挑战
CreataSet面临的挑战主要体现在两个维度:领域问题上,现有创造力评估方法存在跨领域适用性差、评估粒度粗糙和自动化效果有限等问题,难以准确衡量开放域文本的创造力水平;构建过程中,数据集面临人类标注一致性低(ICC=0.59)和创意数据稀缺的双重困境。研究团队通过引入共享上下文指令将标注一致性提升至ICC=0.75,同时采用弱监督方式生成大规模伪标签数据,有效解决了数据稀缺问题。此外,如何平衡不同创意表现形式(如幽默、诗歌、散文等)的评估标准,以及确保评估模型在不同文本长度下的稳定性,也是构建过程中需要克服的技术难点。
常用场景
经典使用场景
CreataSet数据集在自然语言处理领域中被广泛用于评估文本创造力。该数据集通过提供多样化的创意指令-响应对,支持研究人员在大规模、多领域环境下测试和优化大型语言模型(LLMs)的创造力生成能力。其经典使用场景包括创意写作、幽默生成以及诗歌创作等任务,这些任务要求模型不仅能够生成语法正确的文本,还需具备新颖性和创造性。
衍生相关工作
基于CreataSet,研究人员开发了CrEval,这是首个能够跨多个领域进行成对创造力评估的LLM-based评估器。此外,该数据集还催生了一系列相关研究,包括如何利用合成数据增强模型创造力、如何通过负采样优化评估器的鲁棒性等。这些工作进一步推动了自动化创造力评估领域的发展。
数据集最近研究
最新研究方向
近年来,CreataSet数据集在文本创造力评估领域引起了广泛关注。该数据集通过引入大规模的人类标注和合成创意指令-响应对,为跨领域文本创造力评估提供了重要基准。前沿研究主要聚焦于三个方向:一是探索基于上下文感知的成对比较框架,以提升评估的一致性;二是研究如何有效结合人类生成数据与合成数据,训练更具鲁棒性的评估模型;三是开发基于大语言模型的创造力评估器(如CrEval),其在跨领域评估中展现出优于现有方法的性能。该数据集的应用不仅推动了自动化创造力评估技术的发展,还为提升生成式AI的创造力提供了新思路,对创意写作、文学创作等领域的AI应用具有重要启示意义。
相关研究论文
  • 1
    Evaluating Text Creativity across Diverse Domains: A Dataset and Large Language Model Evaluator中国人民大学, 北京师范大学, 快手科技 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作