HCTQA

Hugging Face2025-05-08 更新2025-05-09 收录

下载链接：

https://huggingface.co/datasets/qcri-ai/HCTQA

下载链接

链接失效反馈

官方服务：

资源简介：

HCT-QA是一个针对以人为中心的表格的问答基准数据集，旨在评估大型语言模型处理复杂表格问答的能力。数据集由真实世界和合成的表格组成，其中包含了人类注释的问答对，以及表格和问题的逻辑和结构元数据。

创建时间：

2025-05-06

原始信息汇总

数据集概述：Human Centric Tables Question Answering (HCTQA)

基本信息

语言: 英语 (en)
许可证: MIT
标签: 表格、基准测试、问答、大语言模型、文档理解、多模态
数据集名称: Human Centric Tables Question Answering (HCTQA)
规模: 10K < n < 100K
任务类别: 问答
任务ID: 文档问答、视觉问答
注释创建者: 专家生成

数据集配置

配置名称: default
数据文件:
- 训练集: train.parquet
- 验证集: val.parquet
- 测试集: test.parquet

数据集描述

HCTQA是一个基准数据集，旨在评估大语言模型在复杂、真实世界和合成表格上的问答性能。数据集包含真实世界和合成表格，附带相关图像、CSV和结构化元数据。问题涵盖不同复杂度级别，要求模型处理复杂结构推理、数值聚合和上下文相关理解。

数据集内容

真实世界表格: 2,188个，附带9,835个人工标注的问答对
合成表格: 4,679个，附带67,500个程序生成的问答对
数据类型字段: 标识样本来自真实世界数据源 (realWorldHCTs) 或合成数据 (syntheticHCTs)

数据集结构

特征

table_id: 字符串
table_csv_path: 字符串
table_image_url: 字符串
table_image_local_path: 字符串
table_csv_format: 字符串
table_properties: 字符串
question_id: 字符串
question: 字符串
question_template: 字符串
question_properties: 字符串
answer: 字符串
prompt: 字符串
prompt_without_system: 字符串
dataset_type: 字符串

数据集分割

配置	分割	示例数量 (占位符)
RealWorld	Train	7,500
RealWorld	Test	2,335
Synthetic	Train	55,000
Synthetic	Test	12,500

样本条目结构

json { "table_id": "arxiv--1--1118", "table_info": { "table_csv_path": "../tables/csvs/arxiv--1--1118.csv", "table_image_url": "https://hcsdtables.qcri.org/datasets/all_images/arxiv_1_1118.jpg", "table_image_local_path": "../tables/images/arxiv--1--1118.jpg", "table_properties": { "Standard Relational Table": true, "Row Nesting": false, "Column Aggregation": false, ... }, "table_formats": { "csv": ",0,1,2 0,Domain,Average Text Length,Aspects Identified 1,Journalism,50,44 ..." } }, "questions": [ { "question_id": "arxiv--1--1118--M0", "question": "Report the Domain and the Average Text Length where the Aspects Identified equals 72", "gt": "{Psychology | 86} || {Linguistics | 90}", "question_properties": { "Row Filter": true, "Aggregation": false, "Returned Columns": true, ... } } ... ] }

表格属性

属性名称
Standard Relational Table
Multi Level Column
Balanced Multi Level Column
Symmetric Multi Level Column
Unbalanced Multi Level Column
Asymmetric Multi Level Column
Column Aggregation
Global Column Aggregation
Local Column-Group Aggregation
Explicit Column Aggregation Terms
Implicit Column Aggregation Terms
Row Nesting
Balanced Row Nesting
Symmetric Row Nesting
Unbalanced Row Nesting
Asymmetric Row Nesting
Row Aggregation
Global Row Aggregation
Local Row-Group Aggregation
Explicit Row Aggregation Terms
Implicit Row Aggregation Terms
Split Header Cell
Row Group Label

问题属性

属性名称
Row Filter
Row Filter Condition Type Lookup
Row Filter Condition Type Expression
Row Filter Involved Columns Single
Row Filter Involved Columns Multiple
Row Filter Max Depth Of Involved Columns
Row Filter Retained Rows Single
Row Filter Retained Rows Multiple
Row Filter Num Of Conditions
Returned Columns
Returned Columns Project On Plain
Returned Columns Project On Expression
Returned Columns Max Depth
Returned Columns Expression In Table Present
Returned Columns Expression In Table Not Present
Returned Columns Num Of Output Columns
Yes/No
Aggregation
Aggregation Type Sum
Aggregation Type Avg
Aggregation Grouping Global
Aggregation Grouping Local
Rank
Rank Type

搜集汇总

数据集介绍

构建方式

HCTQA数据集作为评估大语言模型在复杂表格问答任务中性能的基准，其构建过程体现了严谨的多源数据融合策略。研究团队精心采集了2,188个真实世界表格并标注9,835组问答对，同时通过程序化方法生成4,679个合成表格及67,500组配套问答。每个样本均包含表格的CSV文件、图像呈现以及结构化元数据，其中真实数据来源于学术论文和网页文档，合成数据则通过特定算法模拟复杂表格结构。数据划分采用科学的比例分配，确保训练集与测试集具有代表性。

特点

该数据集最显著的特征在于其多模态属性和复杂的表格结构设计。表格类型涵盖标准关系型表格、多级列结构、行嵌套等多样化布局，并配备详细的表格属性标注。问题设置具有层次性，从简单的信息检索到需要数值聚合、条件筛选等高级推理的问题均有涉及。特别值得注意的是，每个问题都标注了丰富的属性特征，如行过滤条件、返回列要求、聚合类型等，为模型能力评估提供多维度的分析依据。数据集还创新性地将真实数据与合成数据相结合，既保证了现实代表性又扩展了数据规模。

使用方法

使用HCTQA数据集时，研究者可通过加载标准化的parquet格式文件获取结构化数据。每个样本包含表格ID、CSV路径、图像URL等完整标识信息，以及问题-答案对和相关提示文本。建议先根据dataset_type字段区分真实世界数据与合成数据，再结合table_properties分析表格结构特征。评估时可参考提供的prompt模板设计输入格式，利用question_properties字段进行细粒度性能分析。数据集已预分为训练集、验证集和测试集，支持端到端问答系统开发和基于表格结构的特定能力测试。

背景与挑战

背景概述

Human Centric Tables Question Answering (HCTQA) 是由专业研究团队构建的基准数据集，旨在评估大型语言模型（LLMs）在复杂、以人为中心的表格上的问答能力。该数据集创建于近年，主要针对研究论文、报告和网页中常见的非标准布局和复合结构的表格。HCTQA包含2,188个真实世界表格和4,679个合成表格，分别配有9,835个人工标注的问答对和67,500个程序生成的问答对。该数据集通过提供逻辑和结构元数据，推动了文档理解和多模态研究的发展，成为评估模型在复杂表格处理能力的重要工具。

当前挑战

HCTQA面临的挑战主要包括两方面：领域问题的挑战和构建过程的挑战。在领域问题方面，该数据集旨在解决复杂表格的理解和问答问题，包括非标准布局、多级嵌套结构和隐含聚合关系等难点，要求模型具备跨模态推理和上下文理解能力。在构建过程中，挑战涉及真实世界表格的多样化采集与标注，以及合成表格的程序化生成与质量控制。此外，确保问答对的复杂性和多样性，同时保持逻辑一致性和准确性，也是构建过程中的主要难点。

常用场景

经典使用场景

在自然语言处理领域，HCTQA数据集被广泛应用于评估大型语言模型在复杂表格问答任务中的表现。该数据集通过结合真实世界和合成表格，为研究者提供了丰富的测试场景，尤其是在处理非标准布局和复合结构表格时，展现了其独特的价值。模型需要在复杂的表格结构中进行数值聚合、上下文依赖理解等高级推理，这使得HCTQA成为衡量模型在真实场景下性能的重要基准。

实际应用

在实际应用中，HCTQA数据集可广泛应用于文档理解、知识检索和智能助手等领域。例如，在研究论文或商业报告中，模型需要快速准确地从复杂表格中提取关键信息。HCTQA通过模拟这些真实场景，为开发高效的信息提取工具提供了重要支持。此外，该数据集还可用于教育领域，帮助学生和研究者更好地理解和分析表格数据。

衍生相关工作

HCTQA数据集已经衍生出多项经典研究工作，特别是在大型语言模型的表格理解能力评估方面。许多研究利用该数据集探索了模型在复杂表格问答任务中的表现，并提出了新的算法和架构。这些工作不仅推动了表格问答技术的发展，也为跨模态理解和推理任务提供了新的思路。HCTQA的标准化评估框架也为后续研究提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集