cresowlve

Hugging Face2026-04-13 更新2026-04-14 收录

下载链接：

https://huggingface.co/datasets/mismayil/cresowlve

下载链接

链接失效反馈

官方服务：

资源简介：

CresOWLve 是一个基于现实世界知识的创造性问题解决双语基准数据集，包含英语和俄语两种语言版本。该数据集旨在评估人类专家在多样化知识和创造性领域中的问题解决能力，涵盖了约2000个开放式问题，每个问题均配有答案和解释。数据集中的每个样本包含唯一标识符、问题文本、原始答案、难度等级（1-5）、解释（如可用）、其他可接受答案、涉及的知识领域列表、创造性领域/思维策略列表以及相关文化/人口统计列表。知识领域广泛覆盖文学、历史、电影与媒体研究、语言与语言学等多个学科，创造性思维涉及横向思维、类比、抽象等多种策略，文化背景则包括英语、俄语、法语等多种语言和文化。数据来源于俄罗斯知名智力游戏“What?Where?When?”，并通过多阶段筛选和翻译流程确保质量和相关性。该数据集适用于问答和文本生成等任务，特别关注创造力和问题解决能力的评估。

创建时间：

2026-04-04

原始信息汇总

CresOWLve 数据集概述

数据集基本信息

数据集名称: CresOWLve: Benchmarking Creative Problem-Solving Over Real-World Knowledge
发布地址: https://huggingface.co/datasets/mismayil/cresowlve
许可证: Apache-2.0
任务类别: 问答、文本生成
语言: 英语、俄语
标签: 创造力、问题解决
规模类别: 1K<n<10K

数据集描述

这是一个基于现实世界知识、可由人类专家解决的双语创造性问题解决基准。CresOWLve 涵盖广泛的知识和创意领域，难度各异，需要多种创造性思维策略，并经过人工验证以确保质量。它包含约2000个开放式问题及其答案和解释。

数据集结构与内容

数据集包含两个配置：en（英语）和ru（俄语）。每个配置仅包含一个test（测试）分割。

数据字段

每个样本包含以下字段：

id: 唯一样本ID。
question: 文本形式的开放式问题。
answer: 问题的原始答案文本。
difficulty: 问题的难度等级（1-5）。
explanation: 参考答案的解释（如果可用）。
other_answers: 其他可接受的答案（如果有）。
knowledge_domains: 回答问题所涉及的知识领域（学科、主题）列表。
creative_domains: 回答问题所涉及的创意领域/思维策略列表。
cultures: 回答问题所涉及的文化/人口统计列表。

数据规模

英语 (en) 配置:
- 下载大小: 619,691 字节
- 数据集大小: 1,156,563 字节
- 样本数量: 2,061 个
俄语 (ru) 配置:
- 下载大小: 852,319 字节
- 数据集大小: 1,759,010 字节
- 样本数量: 2,061 个

知识领域

基准问题涉及至少以下一个领域的知识：文学、历史、电影与媒体研究、语言与语言学、人文地理、宗教研究、人类学、体育教育、生物学、工程与技术、视觉艺术、音乐、政治学、家政与日常生活、表演艺术、心理学、社会学、地球与环境科学、军事、物理学、天文学与空间科学、商学、哲学、设计与建筑、医学与健康科学、经济学、数学、化学、法律与犯罪学、其他科学、艺术史与视觉文化、教育、传播学、考古学。

创意语言与思维

基准问题涉及多个创意语言领域和技能：横向思维、类比、抽象、笑话、双关语、隐喻、常识推理、诗歌、习语、新词、讽刺、谚语、发散性思维、组合性、明喻。

文化与人口统计

基准问题需要了解来自不同文化的实体和人物知识：英语、俄语、法语、德语、意大利语、希腊语、拉丁语、美国、西班牙语、日语、波兰语、阿拉伯语、荷兰语、瑞典语、中文、希伯来语、乌克兰语、罗马、印度、挪威语、丹麦语、苏格兰语、葡萄牙语、土耳其语、捷克语、瑞士语、埃及语、格鲁吉亚语、爱尔兰语、波斯语、巴西语、欧洲、亚美尼亚语等。

数据来源

基准问题来源于著名的俄罗斯智力游戏“What?Where?When?”（https://en.wikipedia.org/wiki/What%3F_Where%3F_When%3F）。为确保可访问性和相关性，设计了一个多阶段的基准构建流程，以过滤不合适和非创造性的问题，并将剩余的谜题翻译成英语并进行人工验证。最终的数据集为评估基于现实世界知识的创造性问题解决提供了一个多样化且高质量的基准。

引用信息

@misc{ismayilzada2026cresowlve, title={CresOWLve: Benchmarking Creative Problem-Solving Over Real-World Knowledge}, author={Mete Ismayilzada and Renqing Cuomao and Daniil Yurshevich and Anna Sotnikova and Lonneke van der Plas and Antoine Bosselut}, year={2026}, eprint={2604.03374}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2604.03374}, }

搜集汇总

数据集介绍

构建方式

在创造性问题求解领域，CresOWLve数据集的构建体现了严谨的学术流程。其核心源数据来自俄罗斯著名的智力游戏《Что? Где? Когда?》，通过一个多阶段的基准构建管道进行精炼。该流程首先过滤掉不适宜或缺乏创造性的问题，随后将剩余的谜题翻译成英语，并辅以人工验证以确保质量。这种构建方式旨在从原始娱乐内容中提炼出既扎根于现实世界知识，又需要多种创造性思维策略的高质量开放性问题，最终形成了一个包含约两千个样本的双语基准测试集。

特点

CresOWLve数据集的特点在于其多维度的丰富标注与广泛的覆盖范围。每个样本不仅包含问题、答案和解释，还标注了难度等级、可接受的其他答案，并系统性地关联了知识领域、创造性思维策略以及文化背景等多个标签。数据集跨越了从文学、历史到科学技术等数十个知识领域，并涵盖了类比、隐喻、横向思维等多种创造性语言技能。其问题设计根植于多元文化背景，要求模型具备跨文化的常识推理能力，从而为评估人工智能在复杂、开放场景下的创造性问题解决能力提供了一个全面而细致的基准。

使用方法

该数据集主要服务于自然语言处理中问答与文本生成任务的研究与评估。使用者可通过加载指定的‘en’或‘ru’配置来获取英语或俄语版本的数据。在应用时，研究者可以依据‘difficulty’字段对问题进行分层评估，或利用‘knowledge_domains’、‘creative_domains’等标签进行细粒度的能力分析。数据集旨在评测模型如何结合广泛的世界知识和创造性思维来生成开放且合理的答案，为推进面向现实世界的、具备创造性的AI系统提供关键的评估工具。

背景与挑战

背景概述

CresOWLve数据集于2026年由Mete Ismayilzada等研究人员提出，旨在为人工智能领域提供一个基于现实世界知识的创造性问题解决基准。该数据集源自俄罗斯知名智力游戏《Что? Где? Когда?》，通过多阶段构建流程，筛选并翻译了约两千个开放式问题，涵盖文学、历史、科学技术等三十余个知识领域，以及横向思维、类比、隐喻等多种创造性思维策略。其双语（英语和俄语）特性与跨文化设计，显著推动了自然语言处理中创造性推理与常识融合的研究进展，为评估模型在复杂、开放场景下的认知能力设立了新标准。

当前挑战

CresOWLve数据集致力于解决创造性问题解决这一核心领域挑战，其问题往往需要模型整合多领域知识并运用非传统思维策略，如理解笑话、诗歌或隐喻，这对现有人工智能系统的泛化与推理能力构成了严峻考验。在构建过程中，研究团队面临的主要挑战包括：从原始游戏中筛选出真正体现创造性的问题，避免琐碎或依赖特定文化背景的条目；确保英俄双语翻译的准确性与文化适应性，保持问题原有的智力挑战性；以及手动验证每个样本的质量与多样性，以维持数据集的高标准与可靠性。

常用场景

经典使用场景

在人工智能与自然语言处理领域，评估模型在开放域问题解决中的创造性思维能力是一项核心挑战。CresOWLve数据集通过提供涵盖文学、历史、艺术、科学等多知识领域的开放式问题，为研究者构建了一个标准化的测试平台。该数据集常用于评测大型语言模型在结合真实世界知识进行横向思维、类比推理、隐喻理解等创造性任务上的表现，从而推动模型在复杂认知任务上的进步。

衍生相关工作

自CresOWLve发布以来，它已催生了一系列聚焦于机器创造性评估的前沿研究。相关工作主要围绕两大方向展开：一是基于该基准对现有大型语言模型进行系统性能力剖析，揭示其在各知识领域与创造性策略上的优势与短板；二是以其为训练或评估目标，提出新颖的模型架构与微调方法，旨在专门提升模型在开放域、多步骤创造性推理任务上的性能，推动了评估驱动的研究范式在AI创造力领域的发展。

数据集最近研究