RelationalFactQA

github2025-11-24 更新2025-12-09 收录

下载链接：

https://github.com/dario-tnn/relational-fact-qa

下载链接

链接失效反馈

官方服务：

资源简介：

RelationalFactQA是一个新颖的基准测试数据集，包含696个问题，涵盖9个知识领域，每个问题都三重标注了自然语言查询、等效的SQL语句和完全验证的金表。该数据集专注于关系事实检索任务：通过大型语言模型根据查询生成结构化、多记录、多属性的表格数据，完全依赖模型的内部参数知识。与现有数据集相比，RelationalFactQA要求更复杂的输出，每个答案平均包含27个元组和5.3个属性。

RelationalFactQA is a novel benchmark dataset consisting of 696 questions spanning 9 knowledge domains. Each question is triple-annotated with natural language queries, equivalent SQL statements, and fully validated gold-standard tables. This dataset focuses on the relational fact retrieval task: generating structured, multi-record, multi-attribute tabular data via large language models based on the provided queries, relying entirely on the model's internal parametric knowledge. Compared with existing datasets, RelationalFactQA requires more complex outputs, with each answer containing an average of 27 tuples and 5.3 attributes.

创建时间：

2025-11-24

原始信息汇总

RelationalFactQA 数据集概述

数据集基本信息

数据集名称: RelationalFactQA
核心任务: 关系事实检索（Relational Fact Retrieval），即要求大型语言模型（LLM）完全依赖其内部参数化知识，根据查询生成结构化的、多记录、多属性的表格数据。
论文标题: RelationalFactQA: A Benchmark for Evaluating Tabular Fact Retrieval from Large Language Models
论文链接: https://arxiv.org/abs/2505.21409

数据集构成与规模

问题总数: 696 个
知识领域: 覆盖 9 个领域
数据标注: 每个问题均经过三重标注，包含：
1. 自然语言（NL）查询
2. 等效的 SQL 语句
3. 经过完全验证的黄金标准答案表（gold table）
输出复杂度:
- 平均每个答案包含 26.942 个元组（行）
- 平均每个答案包含 5.32 个属性（列）
- 平均每个答案包含 357.09 个令牌（tokens）

数据集特点与对比

核心特点: 与现有数据集相比，RelationalFactQA 要求更复杂的输出（更多元组和属性）。

对比数据:

数据集	总问题数	平均输出元组数	平均输出属性数	平均输出令牌数
WikiSQL	56,355	1.08	1.00	3.22
WikiTableQuestions	14,149	1.08	1.00	2.80
Open-WikiTable	53,819	1.08	1.00	3.23
TAT-QA	13,215	1.19	n.a.	6.63
TruthfulQA	790	1.00	n.a.	10.49
TriviaQA (unfiltered)	87,622	1.00	n.a.	6.39
RFQA (本数据集)	696	26.942	5.32	357.09

评估重点与研究问题

数据集围绕三个主要研究问题组织评估：

事实性: LLM 在多大程度上能基于其内部知识生成事实性表格？
提取技术: 与自然语言问题相比，LLM 从 SQL 查询生成表格响应是否更有效？思维链（CoT）是否有助于获得更好的结果？
查询复杂度: LLM 的性能是否取决于目标模式（schema）和查询的复杂度？

关键发现摘要

整体表现: 即使采用不同的执行策略（自然语言、SQL、思维链），评估指标（F1分数和元组相似度TS）仍不理想。
提取技术对比: 自然语言（NL）作为检索方法略优于 SQL，思维链（CoT）在大多数设置下能带来益处。
复杂度影响: 查询复杂度增加会导致输出质量下降。LLM 的性能显著受目标模式结构的影响，属性类型和输出大小是决定LLM表格事实检索有效性的关键因素。

数据文件与获取

数据集主文件: https://github.com/dario-tnn/relational-fact-qa/blob/main/dataset/RelationalFactQA.csv （包含所有查询）
完整数据集文件夹: https://github.com/dario-tnn/relational-fact-qa/tree/main/dataset （包含查询及对应的黄金标准答案表）

实验执行工具

实验结果使用 Galois 工具执行。

搜集汇总

数据集介绍

构建方式

在数据密集型研究领域，构建高质量基准数据集是评估模型能力的关键。RelationalFactQA的构建过程体现了严谨的学术方法，其核心是从九个广泛的知识领域中精心筛选出696个复杂问题。每个问题均经过三重标注，形成一个包含自然语言查询、等效SQL语句以及经过完全验证的黄金标准答案表的完整三元组。这种构建方式确保了数据在语义表达、逻辑结构及事实准确性上的多重可靠性，为评估大语言模型从参数化知识中检索结构化关系事实的能力，提供了坚实且具有挑战性的基础。

特点

作为专门针对表格事实检索任务的基准，RelationalFactQA展现出鲜明的特征。其最突出的特点在于对复杂结构化输出的高要求，每个答案平均需要生成约27个元组和5.3个属性，这显著区别于以往仅关注单记录或简单事实的数据集。该数据集覆盖了九个不同的知识领域，确保了评估的广度与多样性。其精心设计的查询在结构复杂度和属性类型上存在丰富变化，能够系统地探究大语言模型在生成多记录、多属性表格数据时的性能边界与敏感因素。

使用方法

该数据集旨在为大语言模型的表格事实检索能力提供标准化评估框架。使用者可通过加载提供的CSV文件获取所有查询，并在对应的子文件夹中找到经过验证的黄金标准答案表作为基准。评估时，模型需根据自然语言查询或SQL语句，仅依赖其内部参数化知识生成结构化的表格输出。研究者可将模型的输出与黄金标准进行对比，采用单元级别的F1分数和基于编辑距离的元组相似度等指标进行量化评估，从而系统分析模型在事实准确性、对不同查询形式的响应能力以及处理复杂查询结构时的表现。

背景与挑战

背景概述

在自然语言处理与数据库交叉领域，评估大型语言模型基于内部参数化知识生成结构化表格数据的能力，一直是前沿研究的核心议题。RelationalFactQA数据集由Dario Satriani、Enzo Veltri、Donatello Santoro及Paolo Papotti等研究人员于2025年创建，旨在为关系事实检索任务提供一个严谨的基准。该数据集涵盖九个知识领域，包含696个经过三重标注的问题，每个问题均配有自然语言查询、等效SQL语句及已验证的黄金表格。其核心研究问题聚焦于大型语言模型在无需外部检索的情况下，能否准确生成包含多记录、多属性的复杂表格输出，从而推动模型在知识密集型应用中的可信度评估。

当前挑战

RelationalFactQA所针对的关系事实检索任务面临多重挑战：在领域问题层面，大型语言模型在生成结构化表格时，难以保证事实的准确性与完整性，现有评估指标如F1分数和元组相似度均显示模型输出与黄金标准间存在显著差距；同时，查询的结构复杂性、属性类型及输出规模均会显著影响模型性能，导致质量随复杂度提升而下降。在构建过程中，挑战体现在需设计涵盖多样知识领域且具有高复杂度的查询，确保平均每个答案包含约27个元组和5.3个属性，并进行严格的三重标注与验证，以建立可靠的地面真值，这要求跨领域的专业知识与精细的数据工程。

常用场景

经典使用场景

在自然语言处理与知识检索领域，RelationalFactQA数据集被广泛用于评估大型语言模型在关系型事实检索任务中的性能。该数据集通过涵盖九个知识领域的696个混合问题，要求模型基于内部参数化知识生成结构化、多记录、多属性的表格输出。其经典使用场景包括测试模型在复杂查询下的表格生成能力，例如从自然语言或SQL查询中提取并组织事实数据，以验证模型在无需外部知识源情况下的知识检索准确性。

衍生相关工作

围绕RelationalFactQA，已衍生出多项经典研究工作，例如《Logical and Physical Optimizations for SQL Query Execution over Large Language Models》和《QATCH: Benchmarking SQL-centric tasks with Table Representation Learning Models on Your Data》。这些工作进一步探索了模型在SQL查询执行、表格表示学习等方面的优化策略，扩展了数据集在评估模型结构化输出能力中的应用范围，并促进了自然语言与数据库交互技术的交叉发展。

数据集最近研究