five

verbal-reasoning-challenge

收藏
Hugging Face2025-02-10 更新2025-02-10 收录
下载链接:
https://huggingface.co/datasets/nuprl/verbal-reasoning-challenge
下载链接
链接失效反馈
官方服务:
资源简介:
语言推理挑战数据集是一个旨在评估大型语言模型推理能力的数据库。它基于美国NPR周日谜题挑战中的“非直播挑战”,这些挑战旨在被任何美国成年人理解。该基准测试的任务与代码和数学分布不同,用于评估语言推理技能,包括逻辑推理、搜索和一般知识。
提供机构:
Northeastern University Programming Research Lab
创建时间:
2025-02-08
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称:Verbal Reasoning Challenge
  • 数据集特点:
    • 包含字段:ID(int64类型)、url(字符串类型)、date(字符串类型)、challenge(字符串类型)、answer(字符串类型)
  • 数据集划分:
    • 测试集(test):210602字节,共582个样本
  • 下载大小:110599字节
  • 数据集总大小:210602字节

数据集配置

  • 配置名称:default
  • 数据文件:
    • 分割:测试集(test)
    • 路径:data/test-*

数据集类别

  • 任务类别:问题回答(question-answering)

数据集简介

Verbal Reasoning Challenge 是一个用于评估大型语言模型推理能力的数据库。它基于 NPR Sunday Puzzle Challenge 的“离播挑战”,这些挑战对美国任何成年人都易于理解。该基准测试评估的语言推理技能包括逻辑推理、搜索和常识,其任务与代码和数学分布不同。

数据集描述

使用说明

  • 使用方法(待完善):使用 huggingface/lighteval

引用信息

@misc{anderson2025phdknowledgerequiredreasoning, title={PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models}, author={Carolyn Jane Anderson and Joydeep Biswas and Aleksander Boruch-Gruszecki and Federico Cassano and Molly Q Feldman and Arjun Guha and Francesca Lucchetti and Zixuan Wu}, year={2025}, eprint={2502.01584}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2502.01584}, }

搜集汇总
数据集介绍
main_image_url
构建方式
Verbal Reasoning Challenge数据集旨在评估大型语言模型的推理能力,其构建基于美国NPR周日谜题挑战中的‘off-air challenges’。数据集包含五个字段:ID、url、date、challenge和answer,其中challenge字段提供了谜题,answer字段提供了答案。该数据集通过精心挑选的谜题,对模型的逻辑推理、搜索和常识等推理能力进行评估。
使用方法
在使用该数据集时,用户可以通过Hugging Face Space阅读模型响应及模型思考过程。目前,数据集的使用方法仍在开发中,建议使用huggingface/lighteval工具进行评估。用户可以参考相关论文和空间以获取更多使用细节。
背景与挑战
背景概述
Verbal Reasoning Challenge数据集,作为一项衡量大型语言模型推理能力的基准,其创建旨在对NPR Sunday Puzzle Challenge中的'off-air challenges'进行模拟。该数据集由Carolyn Jane Anderson等研究人员设计并于2025年发表,其核心研究问题在于评估模型在逻辑推理、搜索和常识等方面的表现。该数据集的影响力体现在对大型语言模型在非代码和非数学任务中的理解与推理能力的检验,为自然语言处理领域提供了新的研究方向。
当前挑战
数据集在构建和应用过程中所面临的挑战包括:如何确保所设计的问题对于所有成年人来说都是可理解的,以及如何准确评估模型的推理能力而非其记忆能力。此外,由于任务本身是分布外的,因此数据集需要解决如何有效测试模型在非训练领域内的表现的问题。在具体构建过程中,挑战还涉及到如何平衡数据集的难度和多样性,以及如何保证评估标准的公正性和一致性。
常用场景
经典使用场景
在自然语言处理领域,尤其是大型语言模型的评估方面,Verbal Reasoning Challenge数据集提供了一个独特的视角。该数据集的经典使用场景在于,它通过模拟美国NPR Sunday Puzzle Challenge中的'off-air challenges',评估模型在逻辑推理、搜索和常识等方面的能力,从而为研究者提供了一个衡量模型在非代码和非数学任务上表现的标准。
解决学术问题
该数据集解决了传统数据集对模型推理能力评估不足的问题。由于现有的数据集往往侧重于代码或数学任务,对于评估模型在更接近人类日常推理任务上的表现有所欠缺。Verbal Reasoning Challenge通过其独特的设计,为学术界提供了一个新的评估框架,有助于推动大型语言模型在推理能力上的发展。
实际应用
在实际应用中,Verbal Reasoning Challenge数据集可以被用来训练和评估那些需要处理复杂逻辑推理任务的AI系统,如智能客服、自动化问答系统等。通过这样的应用,系统可以更好地理解和处理人类的自然语言查询,提高服务的质量和效率。
数据集最近研究
最新研究方向
在自然语言处理领域,针对大型语言模型推理能力评估的需求,Verbal Reasoning Challenge数据集应运而生。该数据集基于美国NPR周日谜题挑战,旨在评估模型在逻辑推理、搜索和常识等方面的口头推理技能。近期研究聚焦于如何利用此类数据集提升模型的推理能力,以期达到对成人理解水平的评估标准。相关研究不仅推动了大型语言模型在推理任务上的表现,也为理解型人工智能的发展提供了新的视角和挑战。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作