five

RelationalFactQA

收藏
arXiv2025-05-28 更新2025-05-29 收录
下载链接:
http://arxiv.org/abs/2505.21409v1
下载链接
链接失效反馈
官方服务:
资源简介:
RelationalFactQA数据集是一个用于评估大型语言模型(LLMs)从其内部参数知识中检索结构化、多记录表格输出的能力的新基准。该数据集包含696个问题、查询和答案三元组,涵盖九个知识领域,每个三元组都配有一个自然语言查询、等效的SQL语句和完全验证的黄金标准表格。该数据集旨在评估LLMs在生成结构化事实性知识方面的能力,特别是当输出维度(如属性或记录的数量)增加时。该数据集由手动和半自动生成,确保了多样性、可控的复杂性和覆盖范围。

The RelationalFactQA dataset is a novel benchmark for evaluating the capacity of large language models (LLMs) to retrieve structured, multi-record tabular outputs from their internal parametric knowledge. This dataset comprises 696 question-query-answer triples across nine knowledge domains, with each triple paired with a natural language query, an equivalent SQL statement, and a fully validated gold-standard table. This benchmark is designed to assess LLMs' capabilities in generating structured factual knowledge, especially as the dimensions of the output (such as the number of attributes or records) increase. It was generated via a combination of manual and semi-automated workflows to ensure diversity, controllable complexity, and comprehensive coverage.
提供机构:
意大利巴斯蒂亚塔大学
创建时间:
2025-05-28
原始信息汇总

RelationalFactQA: A Benchmark for Evaluating Tabular Fact Retrieval from Large Language Models

基本信息

  • 标题: RelationalFactQA: A Benchmark for Evaluating Tabular Fact Retrieval from Large Language Models
  • 作者: Dario Satriani, Enzo Veltri, Donatello Santoro, Paolo Papotti
  • 提交日期: 27 May 2025
  • arXiv标识符: arXiv:2505.21409v1 [cs.CL]
  • DOI: https://doi.org/10.48550/arXiv.2505.21409

摘要

  • 研究背景: 大型语言模型(LLMs)的事实性是一个持续的挑战。当前基准测试通常评估简短的事实性答案,而忽略了从参数知识生成结构化、多记录表格输出的关键能力。
  • 研究内容: 引入RelationalFactQA,一个专门设计用于评估结构化格式知识检索的新基准。该基准包含多样化的自然语言问题(与SQL配对)和黄金标准表格答案。
  • 研究结果: 实验表明,即使是最先进的LLMs在生成关系输出方面也表现不佳,事实准确性不超过25%,且随着输出维度的增加性能显著下降。

主题分类

  • 主要分类: Computation and Language (cs.CL)
  • 次要分类:
    • Artificial Intelligence (cs.AI)
    • Databases (cs.DB)

相关资源

提交历史

  • 版本1: [v1] Tue, 27 May 2025 16:33:38 UTC (304 KB)
搜集汇总
数据集介绍
main_image_url
构建方式
RelationalFactQA数据集的构建采用了混合方法,结合了人工精选和半自动生成技术。首先,研究人员从Spider、Bird和Galois三个现有语料库中手动筛选了44个数据集,确保这些数据集的模式和实体在维基百科中存在,以保证其内容属于大型语言模型的知识范围。随后,通过YAGO 4.5知识库提取结构化数据,生成表格作为查询目标,并利用Qatch工具自动生成对应的自然语言问题与SQL查询对。最终数据集包含696个问题-查询-答案三元组,涵盖了九个知识领域,每个三元组均标注了自然语言查询、等效的SQL语句及经过验证的金标准表格。
特点
RelationalFactQA数据集的特点在于其专注于评估大型语言模型在结构化表格数据生成方面的能力。该数据集不仅包含多样化的自然语言问题和SQL查询,还要求模型生成多记录、多属性的表格输出,平均每个答案包含27行和5.32列。数据集的设计特别关注了查询复杂性、输出大小和数据特性的多样性,从而能够全面分析模型在不同逻辑操作、数据类型和检索方法下的表现。此外,数据集的表格输出规模显著大于现有基准,平均每个表格包含135.5个单元格,最大表格甚至达到4500个单元格。
使用方法
RelationalFactQA数据集的使用方法主要包括三种检索策略:自然语言(NL)查询、SQL查询和思维链(CoT)方法。在NL方法中,模型直接根据自然语言问题生成表格结果;在SQL方法中,模型需解析SQL语义并返回对应的表格数据;而CoT方法则将查询分解为两步,先检索基础数据,再通过关系代数操作生成最终结果。评估时,模型需在封闭书籍设置下生成表格,禁止使用外部工具。数据集的评估指标包括单元格级别的F1分数和元组相似度(TS),通过精确比较生成的表格与金标准表格来量化模型的准确性。
背景与挑战
背景概述
RelationalFactQA是由意大利Basilicata大学的Dario Satriani、Enzo Veltri、Donatello Santoro以及法国EURECOM的Paolo Papotti于2025年提出的一个基准数据集,旨在评估大型语言模型(LLMs)在封闭书籍环境下从参数化知识中检索结构化表格事实的能力。该数据集包含696个自然语言问题及其对应的SQL查询和黄金标准表格答案,覆盖九个知识领域,平均每个答案包含27行和5.32列。RelationalFactQA的创建填补了现有基准在评估LLMs生成多记录、多属性表格数据能力方面的空白,特别关注了输出维度(如属性数量或记录数)对模型性能的影响。
当前挑战
RelationalFactQA面临的挑战主要包括两个方面:1) 领域问题的挑战:该数据集旨在解决LLMs在生成结构化表格事实时的准确性问题,尤其是在多记录、多属性的复杂查询中,即使单个事实已知,模型也可能因输出维度的增加而表现显著下降。实验表明,即使最先进的LLMs在生成关系型输出时的事实准确率也不超过25%,且性能随输出维度的增加而线性下降。2) 构建过程中的挑战:数据集的构建结合了手动策划和半自动生成的方法,需要确保表格模式和实体在LLMs的知识范围内,同时控制查询复杂性(如SQL构造)和输出大小的多样性。此外,数据预处理步骤(如日期属性的年份提取和噪声元组的移除)对于确保评估的聚焦性至关重要。
常用场景
经典使用场景
RelationalFactQA数据集最经典的使用场景是评估大型语言模型(LLMs)在封闭书籍设置下生成结构化表格数据的能力。该数据集通过自然语言问题或SQL查询,要求模型从参数记忆中检索多记录、多属性的表格信息,而不依赖外部工具或文档。这一场景特别适用于需要高事实精确度的领域,如医疗信息合成、金融报告和科学数据分析。
衍生相关工作
RelationalFactQA衍生了一系列相关研究工作,特别是在LLMs事实性评估和结构化数据生成领域。例如,基于该数据集的实验揭示了LLMs在处理多属性表格数据时的独特失败模式,激发了关于模型架构改进和推理策略优化的研究。此外,该数据集还被用于开发新的提示工程技术,如链式思考(Chain-of-Thought),以提高模型在复杂查询中的表现。
数据集最近研究
最新研究方向
随着大型语言模型(LLMs)在结构化数据生成领域的广泛应用,RelationalFactQA数据集的提出为评估LLMs在关系型事实检索任务中的表现提供了重要基准。该数据集通过结合自然语言问题、SQL查询和标准表格答案,系统性地测试了LLMs在封闭环境下生成多记录、多属性表格数据的能力。最新研究表明,即使是最先进的LLMs在生成关系型表格数据时也面临显著挑战,其事实准确率普遍低于25%,且随着输出维度的增加性能进一步下降。这一发现揭示了当前LLMs在结构化知识合成方面的核心局限,为未来研究提供了关键方向。RelationalFactQA不仅填补了现有评估体系在结构化输出测试方面的空白,更为医疗诊断、金融报告等需要高精度事实检索的应用场景设立了新的评估标准。
相关研究论文
  • 1
    RelationalFactQA: A Benchmark for Evaluating Tabular Fact Retrieval from Large Language Models意大利巴斯蒂亚塔大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作