Quantitative Reasoning with Data (QRDATA)
收藏arXiv2024-02-28 更新2024-06-21 收录
下载链接:
https://github.com/xxxiaol/QRData
下载链接
链接失效反馈官方服务:
资源简介:
数据集QRDATA由北京大学王选计算机研究所和加州大学洛杉矶分校计算机科学系共同创建,包含411个问题,旨在评估大型语言模型在处理真实世界数据时的统计和因果推理能力。数据集内容涵盖从教科书、在线学习材料和学术论文中精心挑选的数据表,用于评估模型的自然语言推理、基于程序的推理和代理推理方法。数据集创建过程中,确保所有问题与数据匹配合理,通过手动构建确保数据集的质量。该数据集主要应用于评估和提升模型在数据基础上的高级定量推理能力,特别是在统计和因果推理方面。
The QRDATA dataset was co-developed by the Wangxuan Institute of Computer Technology at Peking University and the Department of Computer Science at the University of California, Los Angeles. It comprises 411 questions, aimed at evaluating the statistical and causal reasoning capabilities of large language models (LLMs) when handling real-world data. The dataset covers data tables carefully selected from textbooks, online learning materials, and academic papers, and is utilized to assess models' natural language reasoning, program-based reasoning, and AI agent-based reasoning methods. During the dataset's development, strict alignment between all questions and their corresponding data was ensured, and the dataset's quality was validated through manual curation. This dataset is primarily used to evaluate and improve models' advanced quantitative reasoning abilities based on real-world data, with a particular focus on statistical and causal reasoning scenarios.
提供机构:
北京大学王选计算机研究所
创建时间:
2024-02-28
搜集汇总
数据集介绍

构建方式
在数据驱动的定量推理研究领域,构建高质量基准数据集是评估模型能力的关键。QRDATA数据集通过系统化采集与精心筛选,从开源教材、在线学习资源及学术论文中整合了411道定量推理问题,并配以195份真实数据表格。为确保问题与数据的匹配度与合理性,研究团队遵循严格的手工构建流程,仅选取那些附带原始数据且具备明确答案的教学与研究材料。此外,为深入分析数据解析本身的难度,该研究还构建了包含290道纯文本问题的辅助数据集QRTEXT,从而在控制知识需求的前提下,分离出数据操作对模型性能的影响。
特点
QRDATA数据集的核心特征在于其专注于高级定量推理能力评估,特别是统计推理与因果推理两大领域。该数据集不仅要求模型进行复杂的数据分析,还需融合领域知识进行多步推理,例如计算置信区间或估计平均处理效应。其问题设计覆盖了从基础统计概念到前沿因果推断方法的广泛主题,如图3所示的关键概念网络。数据集的挑战性体现在模型需同时处理大规模表格数据、调用专业分析工具,并在多轮交互中动态调整推理路径,这超越了传统表格问答或代码生成任务的范畴。
使用方法
使用QRDATA数据集时,研究者通常采用多种推理框架对大型语言模型进行评估,包括自然语言推理、程序化推理以及智能体推理。具体方法涵盖思维链提示、程序思维提示、ReAct式交互以及代码解释器助手等。评估过程中,模型需接收数据描述、表格内容及问题,通过生成代码或自然语言步骤进行分析,并输出最终答案。数据集的评估指标以答案准确率为主,对于数值类问题允许±3%的误差容限。该数据集不仅可用于衡量模型在数据驱动推理上的现有水平,还能通过错误分析揭示模型在知识整合、计算验证等环节的薄弱点,为后续方法改进提供方向。
背景与挑战
背景概述
在数据科学和人工智能领域,定量推理能力是分析现实世界数据、进行统计推断与因果发现的核心素养。然而,长期以来,针对大型语言模型在此方面能力的系统评估尚属空白。为填补这一研究缺口,北京大学与加州大学洛杉矶分校的研究团队于2024年共同提出了定量推理与数据(QRDATA)基准。该基准精心构建了包含411道问题及其对应数据表的评测集,问题素材源于教科书、在线学习资源与学术论文,旨在评估模型在真实数据上进行统计与因果推理的高级能力。QRDATA的创立标志着对语言模型定量推理能力的评估从纯文本范畴拓展至数据驱动场景,为相关领域的研究提供了重要的评测工具与方向指引。
当前挑战
QRDATA基准所应对的核心领域挑战在于评估模型在数据基础上进行高级定量推理的能力,特别是统计推理与因果推理两大难点。统计推理要求模型从数据中推断潜在概率分布,而因果推理则需辨识变量间的因果关系,这超越了传统的相关性分析。在数据集构建过程中,研究团队面临多重挑战:一是确保问题与数据的真实匹配性与高质量,需从开放资源中手动筛选与标注;二是设计能够支撑多轮推理的评测框架,因为解决复杂定量问题往往需要模型在代码执行、结果解读与后续步骤间迭代。此外,基准还需处理数据规模与模型输入长度限制之间的平衡,以及涵盖从基础统计分析到因果效应估计的广泛概念,确保评测的全面性与科学性。
常用场景
经典使用场景
在数据科学和人工智能领域,QRDATA数据集被广泛用于评估大型语言模型在统计与因果推理方面的能力。该数据集通过结合真实世界的数据表格与定量推理问题,模拟了学术研究中的数据驱动分析场景。研究者通常利用QRDATA来测试模型在理解数据描述、执行多步骤推理以及整合因果知识方面的表现,从而揭示模型在高级定量推理任务中的局限性。
衍生相关工作
QRDATA数据集衍生了一系列相关研究工作,包括对模型推理方法的深入探索,如链式思维、程序思维和智能体推理范式的比较分析。基于该数据集,研究者开发了如Deepseek-coder-instruct等专注于代码生成的模型,并在因果发现、统计估计等任务上进行了性能优化。此外,该数据集还启发了对多模态数据推理、领域自适应定量分析等方向的扩展研究,推动了人工智能在数据科学中的前沿进展。
数据集最近研究
最新研究方向
在数据驱动的统计与因果推理领域,QRDATA数据集正引领着大语言模型能力评估的前沿探索。该数据集聚焦于模型在真实数据背景下进行高级定量推理的能力,特别是统计推理与因果推理两大核心方向。当前研究热点集中于探索模型如何整合内部知识与外部数据,以应对多轮推理、复杂计算及因果推断的挑战。实验表明,即使顶尖模型如GPT-4在因果推理任务上准确率仅约51%,凸显了模型在同时运用因果知识与数据分析方面的显著不足。这一瓶颈推动了针对代码增强推理、多步代理交互以及专业化训练方法的研究,旨在提升模型在医疗、社会科学等关键领域的数据驱动决策能力。QRDATA的建立不仅为模型评估提供了严谨基准,更促进了跨学科方法融合,对推动可信赖人工智能系统的发展具有深远意义。
相关研究论文
- 1Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data北京大学王选计算机研究所 · 2024年
以上内容由遇见数据集搜集并总结生成



