verbal-reasoning-challenge

Name: verbal-reasoning-challenge
Creator: Northeastern University Programming Research Lab
Published: 2025-02-10 04:17:25
License: 暂无描述

Hugging Face2025-02-10 更新2025-02-10 收录

下载链接：

https://huggingface.co/datasets/nuprl/verbal-reasoning-challenge

下载链接

链接失效反馈

官方服务：

资源简介：

语言推理挑战数据集是一个旨在评估大型语言模型推理能力的数据库。它基于美国NPR周日谜题挑战中的“非直播挑战”，这些挑战旨在被任何美国成年人理解。该基准测试的任务与代码和数学分布不同，用于评估语言推理技能，包括逻辑推理、搜索和一般知识。

提供机构：

Northeastern University Programming Research Lab

创建时间：

2025-02-08

原始信息汇总

数据集概述

数据集基本信息

数据集名称：Verbal Reasoning Challenge
数据集特点：
- 包含字段：ID（int64类型）、url（字符串类型）、date（字符串类型）、challenge（字符串类型）、answer（字符串类型）
数据集划分：
- 测试集（test）：210602字节，共582个样本
下载大小：110599字节
数据集总大小：210602字节

数据集配置

配置名称：default
数据文件：
- 分割：测试集（test）
- 路径：data/test-*

数据集类别

任务类别：问题回答（question-answering）

数据集简介

Verbal Reasoning Challenge 是一个用于评估大型语言模型推理能力的数据库。它基于 NPR Sunday Puzzle Challenge 的“离播挑战”，这些挑战对美国任何成年人都易于理解。该基准测试评估的语言推理技能包括逻辑推理、搜索和常识，其任务与代码和数学分布不同。

数据集描述

模型响应（和模型思考）阅读地址：Hugging Face Space
相关论文：PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models

使用说明

使用方法（待完善）：使用 huggingface/lighteval

引用信息

@misc{anderson2025phdknowledgerequiredreasoning, title={PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models}, author={Carolyn Jane Anderson and Joydeep Biswas and Aleksander Boruch-Gruszecki and Federico Cassano and Molly Q Feldman and Arjun Guha and Francesca Lucchetti and Zixuan Wu}, year={2025}, eprint={2502.01584}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2502.01584}, }

搜集汇总

数据集介绍

构建方式

Verbal Reasoning Challenge数据集旨在评估大型语言模型的推理能力，其构建基于美国NPR周日谜题挑战中的‘off-air challenges’。数据集包含五个字段：ID、url、date、challenge和answer，其中challenge字段提供了谜题，answer字段提供了答案。该数据集通过精心挑选的谜题，对模型的逻辑推理、搜索和常识等推理能力进行评估。

使用方法

在使用该数据集时，用户可以通过Hugging Face Space阅读模型响应及模型思考过程。目前，数据集的使用方法仍在开发中，建议使用huggingface/lighteval工具进行评估。用户可以参考相关论文和空间以获取更多使用细节。

背景与挑战

背景概述

Verbal Reasoning Challenge数据集，作为一项衡量大型语言模型推理能力的基准，其创建旨在对NPR Sunday Puzzle Challenge中的'off-air challenges'进行模拟。该数据集由Carolyn Jane Anderson等研究人员设计并于2025年发表，其核心研究问题在于评估模型在逻辑推理、搜索和常识等方面的表现。该数据集的影响力体现在对大型语言模型在非代码和非数学任务中的理解与推理能力的检验，为自然语言处理领域提供了新的研究方向。

当前挑战

数据集在构建和应用过程中所面临的挑战包括：如何确保所设计的问题对于所有成年人来说都是可理解的，以及如何准确评估模型的推理能力而非其记忆能力。此外，由于任务本身是分布外的，因此数据集需要解决如何有效测试模型在非训练领域内的表现的问题。在具体构建过程中，挑战还涉及到如何平衡数据集的难度和多样性，以及如何保证评估标准的公正性和一致性。

常用场景

经典使用场景

在自然语言处理领域，尤其是大型语言模型的评估方面，Verbal Reasoning Challenge数据集提供了一个独特的视角。该数据集的经典使用场景在于，它通过模拟美国NPR Sunday Puzzle Challenge中的'off-air challenges'，评估模型在逻辑推理、搜索和常识等方面的能力，从而为研究者提供了一个衡量模型在非代码和非数学任务上表现的标准。

解决学术问题

该数据集解决了传统数据集对模型推理能力评估不足的问题。由于现有的数据集往往侧重于代码或数学任务，对于评估模型在更接近人类日常推理任务上的表现有所欠缺。Verbal Reasoning Challenge通过其独特的设计，为学术界提供了一个新的评估框架，有助于推动大型语言模型在推理能力上的发展。

实际应用

在实际应用中，Verbal Reasoning Challenge数据集可以被用来训练和评估那些需要处理复杂逻辑推理任务的AI系统，如智能客服、自动化问答系统等。通过这样的应用，系统可以更好地理解和处理人类的自然语言查询，提高服务的质量和效率。

数据集最近研究