RelationalFactQA

Name: RelationalFactQA
Creator: 意大利巴斯蒂亚塔大学
Published: 2025-05-28 00:33:38
License: 暂无描述

arXiv2025-05-28 更新2025-05-29 收录

下载链接：

http://arxiv.org/abs/2505.21409v1

下载链接

链接失效反馈

官方服务：

资源简介：

RelationalFactQA数据集是一个用于评估大型语言模型（LLMs）从其内部参数知识中检索结构化、多记录表格输出的能力的新基准。该数据集包含696个问题、查询和答案三元组，涵盖九个知识领域，每个三元组都配有一个自然语言查询、等效的SQL语句和完全验证的黄金标准表格。该数据集旨在评估LLMs在生成结构化事实性知识方面的能力，特别是当输出维度（如属性或记录的数量）增加时。该数据集由手动和半自动生成，确保了多样性、可控的复杂性和覆盖范围。

The RelationalFactQA dataset is a novel benchmark for evaluating the capacity of large language models (LLMs) to retrieve structured, multi-record tabular outputs from their internal parametric knowledge. This dataset comprises 696 question-query-answer triples across nine knowledge domains, with each triple paired with a natural language query, an equivalent SQL statement, and a fully validated gold-standard table. This benchmark is designed to assess LLMs' capabilities in generating structured factual knowledge, especially as the dimensions of the output (such as the number of attributes or records) increase. It was generated via a combination of manual and semi-automated workflows to ensure diversity, controllable complexity, and comprehensive coverage.

提供机构：

意大利巴斯蒂亚塔大学

创建时间：

2025-05-28

原始信息汇总

RelationalFactQA: A Benchmark for Evaluating Tabular Fact Retrieval from Large Language Models

基本信息

标题: RelationalFactQA: A Benchmark for Evaluating Tabular Fact Retrieval from Large Language Models
作者: Dario Satriani, Enzo Veltri, Donatello Santoro, Paolo Papotti
提交日期: 27 May 2025
arXiv标识符: arXiv:2505.21409v1 [cs.CL]
DOI: https://doi.org/10.48550/arXiv.2505.21409

摘要

研究背景: 大型语言模型（LLMs）的事实性是一个持续的挑战。当前基准测试通常评估简短的事实性答案，而忽略了从参数知识生成结构化、多记录表格输出的关键能力。
研究内容: 引入RelationalFactQA，一个专门设计用于评估结构化格式知识检索的新基准。该基准包含多样化的自然语言问题（与SQL配对）和黄金标准表格答案。
研究结果: 实验表明，即使是最先进的LLMs在生成关系输出方面也表现不佳，事实准确性不超过25%，且随着输出维度的增加性能显著下降。

主题分类

主要分类: Computation and Language (cs.CL)
次要分类:
- Artificial Intelligence (cs.AI)
- Databases (cs.DB)

提交历史

版本1: [v1] Tue, 27 May 2025 16:33:38 UTC (304 KB)

搜集汇总

数据集介绍

构建方式

RelationalFactQA数据集的构建采用了混合方法，结合了人工精选和半自动生成技术。首先，研究人员从Spider、Bird和Galois三个现有语料库中手动筛选了44个数据集，确保这些数据集的模式和实体在维基百科中存在，以保证其内容属于大型语言模型的知识范围。随后，通过YAGO 4.5知识库提取结构化数据，生成表格作为查询目标，并利用Qatch工具自动生成对应的自然语言问题与SQL查询对。最终数据集包含696个问题-查询-答案三元组，涵盖了九个知识领域，每个三元组均标注了自然语言查询、等效的SQL语句及经过验证的金标准表格。

特点

RelationalFactQA数据集的特点在于其专注于评估大型语言模型在结构化表格数据生成方面的能力。该数据集不仅包含多样化的自然语言问题和SQL查询，还要求模型生成多记录、多属性的表格输出，平均每个答案包含27行和5.32列。数据集的设计特别关注了查询复杂性、输出大小和数据特性的多样性，从而能够全面分析模型在不同逻辑操作、数据类型和检索方法下的表现。此外，数据集的表格输出规模显著大于现有基准，平均每个表格包含135.5个单元格，最大表格甚至达到4500个单元格。

使用方法

RelationalFactQA数据集的使用方法主要包括三种检索策略：自然语言（NL）查询、SQL查询和思维链（CoT）方法。在NL方法中，模型直接根据自然语言问题生成表格结果；在SQL方法中，模型需解析SQL语义并返回对应的表格数据；而CoT方法则将查询分解为两步，先检索基础数据，再通过关系代数操作生成最终结果。评估时，模型需在封闭书籍设置下生成表格，禁止使用外部工具。数据集的评估指标包括单元格级别的F1分数和元组相似度（TS），通过精确比较生成的表格与金标准表格来量化模型的准确性。

背景与挑战

背景概述

RelationalFactQA是由意大利Basilicata大学的Dario Satriani、Enzo Veltri、Donatello Santoro以及法国EURECOM的Paolo Papotti于2025年提出的一个基准数据集，旨在评估大型语言模型（LLMs）在封闭书籍环境下从参数化知识中检索结构化表格事实的能力。该数据集包含696个自然语言问题及其对应的SQL查询和黄金标准表格答案，覆盖九个知识领域，平均每个答案包含27行和5.32列。RelationalFactQA的创建填补了现有基准在评估LLMs生成多记录、多属性表格数据能力方面的空白，特别关注了输出维度（如属性数量或记录数）对模型性能的影响。

当前挑战

RelationalFactQA面临的挑战主要包括两个方面：1) 领域问题的挑战：该数据集旨在解决LLMs在生成结构化表格事实时的准确性问题，尤其是在多记录、多属性的复杂查询中，即使单个事实已知，模型也可能因输出维度的增加而表现显著下降。实验表明，即使最先进的LLMs在生成关系型输出时的事实准确率也不超过25%，且性能随输出维度的增加而线性下降。2) 构建过程中的挑战：数据集的构建结合了手动策划和半自动生成的方法，需要确保表格模式和实体在LLMs的知识范围内，同时控制查询复杂性（如SQL构造）和输出大小的多样性。此外，数据预处理步骤（如日期属性的年份提取和噪声元组的移除）对于确保评估的聚焦性至关重要。

常用场景

经典使用场景

RelationalFactQA数据集最经典的使用场景是评估大型语言模型（LLMs）在封闭书籍设置下生成结构化表格数据的能力。该数据集通过自然语言问题或SQL查询，要求模型从参数记忆中检索多记录、多属性的表格信息，而不依赖外部工具或文档。这一场景特别适用于需要高事实精确度的领域，如医疗信息合成、金融报告和科学数据分析。

衍生相关工作

RelationalFactQA衍生了一系列相关研究工作，特别是在LLMs事实性评估和结构化数据生成领域。例如，基于该数据集的实验揭示了LLMs在处理多属性表格数据时的独特失败模式，激发了关于模型架构改进和推理策略优化的研究。此外，该数据集还被用于开发新的提示工程技术，如链式思考（Chain-of-Thought），以提高模型在复杂查询中的表现。

数据集最近研究

RelationalFactQA

RelationalFactQA: A Benchmark for Evaluating Tabular Fact Retrieval from Large Language Models

基本信息

摘要

主题分类

相关资源

提交历史