five

CreataSet

收藏
Hugging Face2025-09-01 更新2025-09-02 收录
下载链接:
https://huggingface.co/datasets/Aman/CreataSet
下载链接
链接失效反馈
官方服务:
资源简介:
CreataSet是一个包含超过100万创造性指令-响应对的大型数据集,覆盖87个不同领域。该数据集旨在促进对评估文本创造力成对比较模型的元评估,并可用于训练创造性生成模型。
创建时间:
2025-08-29
原始信息汇总

CreataSet 数据集概述

数据集基本信息

  • 名称:CreataSet
  • 许可证:cc-by-nc-4.0
  • 数据规模:超过 100 万条创意指令-响应对
  • 覆盖领域:87 个不同领域

主要用途

  • 用于文本创造力评估的成对比较模型的元评估
  • 训练创意生成模型

相关资源

  • 论文:https://arxiv.org/abs/2505.19236
  • 项目主页:https://creval-creative-evaluation.github.io/
  • GitHub 代码:https://github.com/Aman-4-Real/CrEval
  • 相关模型
    • CrEval-7b:https://huggingface.co/Aman/CrEval-7b
    • CrEval-14b:https://huggingface.co/Aman/CrEval-14b

引用信息

bibtex @article{cao2025evaluating, title={Evaluating Text Creativity across Diverse Domains: A Dataset and Large Language Model Evaluator}, author={Cao, Qian and Wang, Xiting and Yuan, Yuzhuo and Liu, Yahui and Luo, Fang and Song, Ruihua}, journal={arXiv preprint arXiv:2505.19236}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在文本创造力评估的跨领域研究中,CreataSet数据集通过系统化的方法构建而成,涵盖了87个不同领域的创意指令-响应对。该数据集规模庞大,包含超过一百万条数据条目,其构建过程注重多样性和代表性,确保每个领域内的创意表达具有充分的覆盖范围。数据来源经过精心筛选与处理,遵循严格的学术标准,以支持对文本创造力评估模型的元评估研究。
使用方法
该数据集主要用于文本创造力评估的元评估研究,用户可以通过对比不同模型在创意指令-响应对上的表现,评估其创造力评估能力。研究人员亦可利用该数据集训练创意文本生成模型,提升模型在多样化领域中的创造性输出。数据集支持标准的自然语言处理流程,包括数据加载、预处理和模型评估,具体操作可参考相关的学术论文和代码库实现。
背景与挑战
背景概述
在自然语言处理领域,文本创造力评估长期面临着缺乏标准化基准的困境。2025年,由Qian Cao、Xiting Wang等研究人员组成的团队发布了CreataSet数据集,该数据集包含超过100万条涵盖87个领域的创造性指令-响应对。这一大规模资源的建立旨在解决跨领域文本创造力评估的元评价问题,同时为创造性文本生成模型的训练提供支撑,对推动计算创造力研究具有里程碑意义。
当前挑战
文本创造力评估的核心挑战在于其主观性和领域依赖性,不同领域对创造力的定义标准存在显著差异。构建过程中,研究团队需要克服多领域数据收集与标注的一致性难题,确保87个不同领域创造力评价标准的协调统一。此外,如何在海量数据中保持创意质量的可控性,以及处理原始数据源的版权与伦理问题,都是数据集构建过程中面临的重要技术挑战。
常用场景
经典使用场景
在自然语言处理领域,CreataSet数据集为文本创造力评估提供了标准化基准。该数据集包含超过100万条跨87个领域的创意指令-回复对,研究人员通过构建成对比较任务,能够系统评估不同模型在生成创造性文本时的相对优劣。这种评估框架不仅覆盖文学创作和广告文案等传统领域,还延伸至技术文档和科学写作等专业场景,为创造力量化研究建立了可靠的数据基础。
解决学术问题
该数据集有效解决了文本创造力评估中缺乏标准化基准的学术难题。通过提供大规模多领域的创意文本对,研究者能够突破传统评估方法的主观局限性,建立可量化的创造力度量体系。其意义在于首次实现了跨领域创造性文本的系统化对比,为计算创造力理论的发展提供了实证基础,推动了自然语言生成模型在创新性表达方面的科学评估进程。
实际应用
在实际应用层面,CreataSet为创意产业智能化提供了关键支撑。广告公司可利用该数据集训练生成模型,自动产出具有创新性的营销文案;教育机构能够基于其构建创意写作辅助系统,帮助学生提升文学创作能力;内容平台通过集成其评估框架,实现对用户生成内容的创意质量自动分级。这些应用显著提升了创意内容的生产效率和质量控制水平。
数据集最近研究
最新研究方向
在文本生成与评估领域,CreataSet数据集的推出标志着创造性计算研究进入新阶段。该数据集涵盖87个领域的百万级创意文本对,为跨领域创造性评估提供了标准化基准。当前研究聚焦于构建基于大语言模型的自动化创造力评估系统,如CrEval系列模型通过对比学习机制实现人类级创意判别能力。这一进展直接呼应了生成式人工智能对创造性内容质量控制的迫切需求,为创意写作辅助系统、广告文案生成等应用提供了可量化的评估框架。数据集的多领域特性更推动了跨模态创造性研究,使机器能够理解文学创作、产品设计等不同维度的创新性表达。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作