TaatiTeam/OCW_wordnet

Name: TaatiTeam/OCW_wordnet
Creator: TaatiTeam
Published: 2024-05-23 23:33:59
License: 暂无描述

Hugging Face2024-05-23 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/TaatiTeam/OCW_wordnet

下载链接

链接失效反馈

官方服务：

资源简介：

Only Connect Wall (OCW)数据集包含来自Only Connect quiz show的618个Connecting Walls，这些数据收集自15个赛季的节目。每个墙包含真实的分组和连接，以及记录的人类表现。数据集还提供了两种不同版本，其中一种显著减少了每个墙中的干扰项，另一种则完全移除了这些干扰项。

提供机构：

TaatiTeam

原始信息汇总

数据集概述

基本信息

数据集名称: Only Connect Wall (OCW) Dataset
许可证: MIT
任务类别: 文本分类
语言: 英语
标签:
- 创造性问题解决
- 谜题
- 固定效应
- 大型语言模型
- 仅连接
- 问答节目
- 连接墙
美观名称: Only Connect Wall Dataset
大小类别: 小于1K

数据集内容

包含内容: 618个“连接墙”数据，来自《Only Connect》问答节目的第三轮“连接墙”环节，涵盖15个季节的剧集。
数据详情: 每个墙包含地面实况组和连接，以及记录的人类表现。

数据集使用

加载方式: 通过HuggingFace的datasets库加载，支持原始数据集及两种变体（ocw_randomized和ocw_wordnet），后者分别减少了或移除了墙中的误导信息。

引用信息

引用文献:

@article{alavi2024large, title={Large Language Models are Fixated by Red Herrings: Exploring Creative Problem Solving and Einstellung Effect using the Only Connect Wall Dataset}, author={Alavi Naeini, Saeid and Saqur, Raeid and Saeidi, Mozhgan and Giorgi, John and Taati, Babak}, journal={Advances in Neural Information Processing Systems}, volume={36}, year={2024} }

搜集汇总

数据集介绍

构建方式

在认知科学和自然语言处理领域，Only Connect Wall (OCW) 数据集的构建体现了对创造性问题解决过程的深入探索。该数据集源自英国益智节目《Only Connect》的“连接墙”环节，通过系统性地收集15个赛季共618个谜题实例而成。每个实例均包含原始词汇、真实分组及关联信息，并整合了人类解题表现记录，确保了数据来源的可靠性与结构完整性。构建过程中，研究者还特别开发了去除或减少干扰项的变体版本，以支持对思维定势效应的精细化分析。

特点

该数据集的核心特点在于其聚焦于创造性问题解决与思维定势效应研究，为评估大型语言模型的认知能力提供了独特平台。数据集不仅提供了标准谜题，还包含了经过处理的版本，其中干扰项被随机化或完全移除，这有助于分离并研究“红鲱鱼”对问题解决的干扰作用。每个实例附有真实的人类解题数据，使得模型表现能与人类认知基准进行直接对比，为探索人工智能与人类思维过程的异同奠定了实证基础。

使用方法

在应用层面，研究者可通过Hugging Face的`datasets`库便捷加载该数据集及其变体。标准用法涉及加载主数据集以访问完整的谜题、分组及人类表现数据。针对特定研究需求，例如探究干扰项的影响，可加载`ocw_randomized`或`ocw_wordnet`变体版本。数据集适用于文本分类等任务，能够支持对大型语言模型在复杂关联推理、创造性突破及受干扰情境下问题解决能力的系统性评估与基准测试。

背景与挑战

背景概述

在认知科学与人工智能交叉领域，创造性问题解决能力的研究长期受到关注，尤其关注人类思维中的定势效应（Einstellung Effect）如何影响问题解决过程。TaatiTeam/OCW_wordnet数据集于2024年由多伦多康复研究所等机构的研究团队创建，旨在通过英国益智节目《Only Connect》中的“连接墙”谜题，系统探究大型语言模型在创造性联想任务中的表现。该数据集收录了15个赛季共618个谜题，包含真实分组与关联信息，以及人类解题记录，为量化分析模型在复杂语义推理中的局限提供了基准，推动了认知计算与自然语言处理领域的交叉研究。

当前挑战

该数据集核心挑战在于如何准确评估大型语言模型在开放式语义关联任务中的创造性问题解决能力，特别是模型是否容易受“红鲱鱼”干扰项影响而陷入思维定势。构建过程中的挑战包括从非结构化节目内容中提取并标准化谜题数据，确保分组与连接标注的准确性，以及设计去除或减少干扰项的衍生版本（如OCW_wordnet），以隔离定势效应的影响因素，从而为模型评估提供更纯净的语义推理环境。

常用场景

经典使用场景

在认知科学与人工智能交叉领域，OCW数据集为研究创造性问题解决提供了独特平台。其经典使用场景聚焦于评估大型语言模型在解决“连接墙”谜题时的表现，通过分析模型如何从看似杂乱的单词中识别隐藏的分类组别和关联关系，揭示模型在复杂语义推理和模式识别方面的能力。这一场景不仅模拟了人类在智力竞赛中的思维过程，还为量化模型的创造性思维提供了标准化测试环境。

实际应用

在实际应用层面，OCW数据集被广泛应用于教育技术领域，用于开发智能辅导系统。通过模拟“连接墙”谜题，这些系统能够训练学习者的联想思维和分类能力，并提供个性化反馈。同时，该数据集也为娱乐产业中的自适应谜题生成系统提供核心算法测试基准，确保生成的智力挑战既富有创意又符合认知规律，提升了人机交互体验的质量。

衍生相关工作

围绕该数据集衍生的经典工作包括对大型语言模型创造性瓶颈的深入剖析，例如研究团队通过对比原始版本与去除干扰项的变体，揭示了模型语义检索机制的局限性。这些工作进一步催生了针对注意力机制优化、抗干扰训练范式的新方法，并在NeurIPS等顶级会议上引发系列讨论，推动了人工智能在鲁棒推理方向的研究进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集