Human-Centric Tables (HCT) Question Answering Benchmark

github2025-03-12 更新2025-03-12 收录

下载链接：

https://github.com/shahmeer99/HCT-QA-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库提供了一个关于Human-Centric Tables (HCTs)的问答基准测试。HCTs是非关系型表格，具有复杂的结构，难以解析和理解。该基准测试允许在真实世界和合成的HCTs上评估大型语言模型（LLMs）和视觉语言模型（VLMs）。

This repository provides a question answering benchmark for Human-Centric Tables (HCTs). HCTs are non-relational tables with complex structures that are difficult to parse and comprehend. This benchmark enables the evaluation of Large Language Models (LLMs) and Vision-Language Models (VLMs) on both real-world and synthetic HCTs.

创建时间：

2025-03-01

原始信息汇总

Human-Centric Tables (HCT) Question Answering Benchmark 数据集概述

数据集简介

目的：评估大型语言模型（LLMs）和视觉语言模型（VLMs）在真实世界和合成HCT上的问答能力。
特点：HCT是非关系型表格，具有复杂结构，难以解析和理解。

数据集结构

真实世界数据 (`datasets/`)

qaps/：包含问答对。
prompts/：用于模型推理的提示模板。
tables/：HCT以压缩的.gz文件形式提供（CSV和图像）。

合成数据生成 (`synthetic_data_generator/`)

功能：生成具有不同样式和属性的合成HCT。
详情：参见synthetic_data_generator/README_SYNTHETIC_GENERATOR.md。

数据格式

Ground Truth格式：
- 同一行的值用{}括起，不同列的值用|分隔。
- 不同行的值用||分隔。
- 聚合值用{}括起，多个不同的聚合值用||分隔。

数据提取

bash chmod +x ./format_files.sh ./format_files.sh

运行基准测试

1. 设置与安装

Python版本：推荐使用Python 3.12。
依赖安装： bash pip install -r requirements.txt
Hugging Face Token设置： bash echo "HUGGINGFACE_TOKEN=your_token_here" > .env

2. 运行实验

主脚本：to_run.sh。
功能：
- 在真实世界数据上运行LLM推理。
- 在合成数据集上运行LLM推理。
- 在真实世界数据上运行VLM推理。

未来计划

排行榜：跟踪模型在HCT-QA上的表现。
数据集发布：在Hugging Face上公开发布数据集。
数据集扩展：增加来自不同来源和领域的HCT。
问题难度分类：自动难度评分框架。

引用与贡献

引用：待论文发表后提供。
贡献：欢迎提交问题或拉取请求以改进基准测试。

许可证

许可证类型：MIT License。

搜集汇总

数据集介绍

构建方式

Human-Centric Tables (HCT) Question Answering Benchmark数据集的构建方式涉及对现实世界及合成的人类中心表格的解析与处理。该数据集包含现实世界的表格数据，以及通过特定脚本生成的合成表格数据，旨在为大型语言模型和视觉语言模型提供评估基准。

使用方法

使用该数据集时，用户需先设置Python环境，并安装必要的依赖。通过运行提供的脚本，用户可以解压表格数据，执行LLM或VLM的推理，并对模型响应进行评估。详细的安装和运行步骤在官方README文件中有所说明，用户可根据具体需求对脚本进行定制化修改。

背景与挑战

背景概述

Human-Centric Tables (HCT) Question Answering Benchmark 数据集，由专注于自然语言处理与视觉理解的团队开发，旨在为评估大型语言模型（LLMs）和视觉语言模型（VLMs）在处理人类中心表格（HCTs）上的能力提供基准。HCTs 为结构复杂且难以解析的非关系型表格，该数据集的创建旨在推动相关领域的研究进展，提升模型对现实世界表格数据的理解和问答能力。该数据集自推出以来，受到了广泛关注，对自然语言处理领域的发展产生了重要影响。

当前挑战

该数据集在构建和应用过程中面临的挑战主要包括：1) 复杂表格结构的解析与理解，要求模型能够准确提取表格中的信息并回答相关问题；2) 数据集的多样性和真实性，需要涵盖广泛领域的表格数据以提升模型的泛化能力；3) 评价标准的统一性，建立客观准确的评价体系来衡量模型在HCT上的表现。此外，数据集的构建过程中，合成数据的生成和质量控制也是一个关键挑战。

常用场景

经典使用场景

针对Human-Centric Tables (HCT)这一非关系型且结构复杂的表格数据，HCT Question Answering Benchmark数据集被设计用于评估大型语言模型（LLMs）和视觉语言模型（VLMs）在处理现实世界与合成HCTs上的性能。其经典使用场景在于为模型提供标准的问题-答案对以及表格数据，通过模型对表格数据的解析和问题的回答，来衡量模型在处理人类中心表格数据上的能力。

解决学术问题

该数据集解决了传统问答系统在处理非规范化、结构复杂表格数据上的难题，为学术界提供了一种评价模型在理解复杂表格内容并进行准确问答的标准方法。它对于提升模型在处理实际应用中遇到的各种表格数据的能力具有重要的研究意义和影响。

实际应用

在实际应用中，HCT数据集可用于金融、医疗、教育等多个领域，帮助构建能够处理和分析复杂表格数据的智能系统，从而提高信息提取的准确性和效率，为决策提供支持。

数据集最近研究