nytimes-connections

Hugging Face2025-08-08 更新2025-08-09 收录

下载链接：

https://huggingface.co/datasets/ItsTYtan/nytimes-connections

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含智力题目和解决方案，其中题目以字符串形式给出，解决方案则包含一个团队名称（group）和团队成员列表（members）。数据集分为训练集和测试集两部分，共有705个训练样本和79个测试样本。

This dataset contains intelligence questions and their corresponding solutions. Specifically, the questions are provided in string format, while each solution consists of a team name (group) and a list of team members (members). The dataset is split into training and test subsets, with 705 training samples and 79 test samples respectively.

创建时间：

2025-08-04

原始信息汇总

数据集概述

基本信息

数据集名称: nytimes-connections
存储位置: https://huggingface.co/datasets/ItsTYtan/nytimes-connections
下载大小: 185978字节
数据集大小: 320309.0字节

数据集结构

特征

puzzle: 字符串列表
solution:
- group: 字符串
- members: 字符串列表

数据划分

train:
- 字节数: 288032.9655612245
- 样本数: 705
test:
- 字节数: 32276.03443877551
- 样本数: 79

配置信息

默认配置:
- 训练集路径: data/train-*
- 测试集路径: data/test-*

搜集汇总

数据集介绍

构建方式

在自然语言处理与逻辑推理交叉领域，nytimes-connections数据集通过系统化采集《纽约时报》热门字谜游戏“Connections”的原始谜面与标准解构方案构建而成。该数据集采用人工标注与自动化校验相结合的方式，确保每组数据包含完整的四组分类关系及对应成员词汇，最终形成包含训练集与测试集的标准化语料库。

特点

该数据集呈现鲜明的多维度特征：其词汇网络涵盖文化、科技、历史等跨领域语义关系，每个谜题包含16个词汇元素与4组隐藏分类逻辑。数据样本具有严格的逻辑一致性和语义层次性，测试集特别设计为验证模型对隐含分类规则的推理能力，为研究复杂语义关联提供了高质量基准。

使用方法

研究者可借助该数据集开展语义推理与分类任务的模型训练，通过解析puzzle字段的词汇序列预测solution中的分组结构。建议采用图神经网络或注意力机制建模词汇间隐含关系，训练集用于学习分类模式，测试集则用于评估模型在未知谜题上的泛化性能与逻辑推理能力。

背景与挑战

背景概述

nytimes-connections数据集源自《纽约时报》开发的文字解谜游戏Connections，该游戏于2023年正式推出，迅速成为语言推理和认知科学领域的重要研究资源。数据集由游戏历史谜题记录构成，旨在探究人类联想思维与语义网络构建机制。通过四组词汇的语义关联分类任务，该数据集为自然语言处理领域提供了研究词汇语义关系、常识推理和认知负载问题的实验平台，对推进人工智能的语义理解能力具有显著影响力。

当前挑战

该数据集核心挑战在于解决多维度语义分类问题，要求模型识别表面异构词汇间的深层语义关联，并克服语义歧义性与文化语境依赖性问题。构建过程中的挑战包括从游戏界面提取结构化数据的标准化处理，确保词汇分组标签的准确性与一致性，以及平衡谜题难度分布以覆盖多样化的语义推理模式。

常用场景

经典使用场景

在自然语言处理与认知计算领域，nytimes-connections数据集为词汇语义关联研究提供了重要支撑。该数据集通过组织词汇成特定主题群组，典型应用于训练和评估模型在语义分类与模式识别方面的能力，尤其适合探究机器对复杂概念关系的理解深度。

解决学术问题

该数据集有效解决了语义推理中的群组划分难题，为研究自动分类算法和认知建模提供了基准测试平台。其意义在于推动了对机器理解隐含语义关系的研究，显著促进了计算语言学与人工智能在复杂模式识别方面的理论进展。

衍生相关工作

基于nytimes-connections数据集，衍生出了多项关于图神经网络与语义嵌入的经典研究。这些工作深入探索了词汇关系表示学习，发展了诸如基于注意力的群组发现模型和跨领域语义迁移方法，显著丰富了计算语义学的研究范畴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集