CREATE

github2026-03-13 更新2026-03-15 收录

下载链接：

https://github.com/ManyaWadhwa/CREATE

下载链接

链接失效反馈

官方服务：

资源简介：

CREATE是一个基准测试，旨在衡量模型中的关联推理能力。该基准测试评估模型是否能通过中间实体或关系构建有效、多样且有洞察力的路径来连接两个概念。我们引入了创意效用这一统一指标，用于捕捉生成连接的质量和多样性。

CREATE is a benchmark designed to measure the associative reasoning capabilities of models. This benchmark evaluates whether models can construct valid, diverse, and insightful paths to connect two concepts via intermediate entities or relations. We introduce a unified metric termed Creative Utility to capture both the quality and diversity of the generated connecting paths.

创建时间：

2026-02-18

原始信息汇总

CREATE数据集概述

数据集基本信息

名称: CREATE
作者: Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg Durrett
发布日期: 2026年
相关论文: CREATE: Testing LLMs for Associative Creativity
基准平台: https://huggingface.co/datasets/wadhma/CREATE
排行榜: https://manyawadhwa.github.io/projects/create/

数据集目的与设计

CREATE是一个专门设计用于衡量模型联想推理能力的基准测试。该基准评估模型是否能够通过中间实体或关系，构建有效、多样且富有洞察力的路径来连接两个概念。

核心概念：创造性效用

数据集引入了"创造性效用"这一统一指标，用于捕捉生成连接的质量和多样性。

数据示例

示例查询: "有哪些不同的方式可以将达科塔·约翰逊与出演过奇幻或科幻电影的人联系起来？"

期望的模型生成路径示例:

达科塔·约翰逊在《物质主义者》中与克里斯·埃文斯合作；克里斯·埃文斯在《复仇者联盟》中饰演美国队长。
达科塔·约翰逊是安东尼奥·班德拉斯的继女，安东尼奥·班德拉斯在《怪物史莱克》中为穿靴子的猫配音。

数据获取方式

可通过HuggingFace数据集库直接加载： python from datasets import load_dataset data = load_dataset(wadhma/CREATE)[train].to_pandas()

评估方法

输入格式要求

评估输入必须是.jsonl文件或HuggingFace数据集，至少包含以下列：

query: 基准问题（字符串类型）
path_prediction: 模型生成的路径列表（每个路径为字符串）

评估指标

评估脚本计算以下分数：

强度分数
事实性分数
创造性效用（前两者的聚合指标）

评估配置

默认评估模型: gpt-4.1-mini-2025-04-14
默认耐心参数: 0.9
默认事实性阈值: 1.0

评估命令示例

bash python evaluate_creative_utility.py --input_file predictions.jsonl --model_name gpt-4o --output results.jsonl

引用格式

bibtex @InProceedings{Wadhwa-Et-Al-2026:CREATE, title = {CREATE: Testing LLMs for Associative Creativity}, author = {Manya Wadhwa and Tiasa Singha Roy and Harvey Lederman and Junyi Jessy Li and Greg Durrett}, booktitle = {arXiv}, year = {2026}, }

搜集汇总

数据集介绍

构建方式

在评估大型语言模型关联推理能力的背景下，CREATE基准的构建遵循了严谨的实证研究范式。其核心在于设计一系列旨在连接两个看似无关概念的查询问题，例如将演员与特定电影类型的参演者相关联。数据集的构建过程依赖于从广泛知识源中提取的真实实体与关系，确保每个查询都能支撑起多条在事实层面成立且逻辑连贯的关联路径。这种构建方式旨在模拟人类进行联想思维时的多样性与创造性，为模型的能力评估提供了一个结构化的测试场。

使用方法

研究人员可通过Hugging Face平台便捷地加载该基准数据集，获取预设的评估查询。使用过程要求将模型针对每个查询生成的关联路径列表，按照指定的JSONL格式进行组织。随后，运行配套的评估脚本，该脚本会调用指定的评估模型（如GPT系列）对生成路径的强度与事实性进行打分，并最终计算出综合性的创造性效用分数。这一流程提供了标准化的评估接口，使得不同模型在关联创造力方面的性能能够被客观、量化地比较与分析。

背景与挑战

背景概述

在人工智能领域，大型语言模型的推理能力评估一直是研究热点。CREATE数据集于2026年由Manya Wadhwa、Tiasa Singha Roy、Harvey Lederman、Junyi Jessy Li和Greg Durrett等研究人员共同创建，旨在系统性地衡量模型在关联推理方面的表现。该数据集聚焦于评估模型能否通过中间实体或关系，构建有效、多样且富有洞察力的路径来连接两个概念，从而推动对模型创造性思维能力的深入理解。其提出的“创造性效用”统一度量标准，不仅关注生成连接的质量，还强调路径的多样性，为自然语言处理与认知计算交叉领域的研究提供了新的评估框架。

当前挑战

CREATE数据集致力于解决关联创造力评估这一核心问题，其挑战在于如何准确量化模型生成的连接路径在逻辑连贯性、事实基础与概念新颖性之间的平衡。具体而言，构建过程中需克服多维度挑战：一是设计能够激发多样且合理关联的查询语句，避免路径的单一性或琐碎性；二是建立可靠且高效的评价体系，整合事实性与强度评分，并引入耐心参数以优化效用分布；三是确保数据标注的准确性与一致性，防止主观偏差影响评估结果。这些挑战共同指向对模型深层推理能力的精细化测评需求。

常用场景

经典使用场景

在人工智能与认知科学交叉领域，CREATE数据集被广泛用于评估大型语言模型在联想推理任务中的表现。研究者通过设计开放式查询，要求模型生成连接两个概念的多条路径，以此检验模型能否构建连贯、多样且富有洞察力的关联链条。这一场景典型地体现在模型对文化、社会或知识网络中实体关系的创造性探索中，例如从演员Dakota Johnson关联到科幻电影明星的多种途径，从而揭示模型在非结构化知识整合方面的潜力。

解决学术问题

CREATE数据集致力于解决自然语言处理中模型联想创造力量化评估的难题。传统基准多聚焦于事实检索或逻辑推理，而CREATE引入了“创意效用”这一统一指标，综合考量生成路径的质量与多样性，填补了现有评估体系在衡量创造性思维方面的空白。该数据集为研究社区提供了标准化工具，以深入探究模型如何从庞大知识库中提取并组合信息，进而推动人工智能向更类人的联想认知能力迈进。

实际应用

在实际应用层面，CREATE数据集可服务于创意产业与教育技术领域。例如，在内容创作辅助系统中，模型基于该基准训练的联想能力能够帮助编剧或作家发现人物、情节或主题之间的新颖联系，激发叙事灵感。在教育场景中，它可用于设计互动学习工具，引导学生通过构建概念网络深化对学科知识的理解，培养跨学科思维与创新解决问题的能力。

数据集最近研究