RealHiTBench

Name: RealHiTBench
Creator: 浙江大学
Published: 2025-06-16 20:19:08
License: 暂无描述

arXiv2025-06-16 更新2025-06-19 收录

下载链接：

https://github.com/cspzyy/RealHiTBench

下载链接

链接失效反馈

官方服务：

资源简介：

RealHiTBench是一个全面的基准数据集，旨在评估大型语言模型（LLMs）在处理复杂表格数据方面的能力。该数据集包括具有复杂结构的表格，涵盖了多种任务类型，如事实核查、数值推理、数据分析、图表生成和结构理解。数据集包含708个表格和3752个问题，涉及24个不同领域。RealHiTBench支持多种输入格式，包括LaTeX、HTML和PNG，以评估LLMs和多媒体LLMs在处理不同格式表格数据时的性能。数据集的构建过程严格，采用了基于GPT的自动标注和人工检查，确保了问题和答案的准确性和可靠性。该数据集可用于评估LLMs在理解复杂表格结构方面的能力，并促进未来表格数据分析研究的发展。

RealHiTBench is a comprehensive benchmark dataset designed to evaluate the capabilities of Large Language Models (LLMs) in handling complex tabular data. This dataset includes tables with complex structures and covers a variety of task types, such as fact checking, numerical reasoning, data analysis, chart generation, and structural understanding. It contains 708 tables and 3752 questions spanning 24 distinct domains. RealHiTBench supports multiple input formats, including LaTeX, HTML, and PNG, to evaluate the performance of both LLMs and multimodal LLMs when processing tabular data in different formats. The dataset is constructed through a rigorous process, utilizing GPT-based automatic annotation and manual verification to ensure the accuracy and reliability of the questions and answers. This dataset can be used to evaluate the ability of LLMs to understand complex table structures, and promote the development of future research on tabular data analysis.

提供机构：

浙江大学

创建时间：

2025-06-16

原始信息汇总

RealHiTBench 数据集概述

基本信息

名称: RealHiTBench
许可证:
- 代码许可证: MIT
- 数据许可证: CC-BY-NC-4.0
相关论文: RealHiTBench: A Comprehensive Realistic Hierarchical Table Benchmark for Evaluating LLM-Based Table Analysis
数据集地址: Hugging Face 数据集

数据集概述

目的: 评估大型语言模型（LLMs）和多模态语言模型（MLMs）在理解和推理复杂现实世界分层表格方面的能力。
特点:
- 包含多样化的题目类型和输入格式（LaTeX、HTML、PNG）。
- 涵盖24个领域，包含708个表格和3,752个问答对。
- 包含丰富的结构复杂性，如嵌套子表和多级表头。

复杂结构分类

分层列标题: 通过单元格合并形成多级层次结构，组织列属性以反映分类关系。
分层行标题: 使用缩进或多个合并列来表示语义层次结构并分类行条目。
嵌套子表: 通过全宽水平单元格将表格划分为多个子表，将内容分割成不同的语义区域。
多表连接: 包含显式或隐式的多表结构，通常暗示比较或对齐。
其他: 非结构元素（如解释性文本或单元格背景颜色）也携带重要信息。

评估流程

安装依赖: bash pip install -r requirements.txt
下载数据集: 从Hugging Face下载数据集至data目录。
运行模型推理与评估:
- 开源LLMs: bash python inference_llm.py --model [model] --model_dir [model_dir] --max_input [max_input]
- 开源MLMs:
  - 图像输入: bash python inference_mlm.py --model [model] --model_dir [model_dir] --max_input [max_input]
  - 图像+文本输入: bash python inference_mix.py --model [model] --model_dir [model_dir] --max_input [max_input]
- 闭源模型: bash python inference_close.py --model [model] --api_key [api_key] --base_url [base_url]

TreeThinker方法

描述: 一种通过将表格层次结构注入指令以增强推理的管道。
特点: 利用树结构组织分层表头，引导语言模型更好地感知表格结构。
评估: 可通过替换Python程序（如将inference_llm.py改为inference_llm_tree_self_v3_1.py）来评估模型与TreeThinker结合的性能。

引用

bibtext @misc{wu2025realhitbenchcomprehensiverealistichierarchical, title={RealHiTBench: A Comprehensive Realistic Hierarchical Table Benchmark for Evaluating LLM-Based Table Analysis}, author={Pengzuo Wu and Yuhang Yang and Guangcheng Zhu and Chao Ye and Hong Gu and Xu Lu and Ruixuan Xiao and Bowen Bao and Yijing He and Liangyu Zha and Wentao Ye and Junbo Zhao and Haobo Wang}, year={2025}, eprint={2506.13405}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.13405}, }

搜集汇总

数据集介绍

构建方式

RealHiTBench数据集的构建过程体现了高度的系统性和严谨性。研究团队从13个公开数据平台收集了涵盖24个领域的原始表格数据，经过严格的内容验证和结构标准化处理。在数据标注环节，采用了两阶段混合标注策略：首先基于GPT-4o生成初始问题和答案，随后通过多轮人工校验确保标注质量。特别值得注意的是，该数据集创新性地设计了树形结构标注流程（TreeThinker），将复杂表头层次关系转化为树状结构，显著提升了模型对表格层次结构的理解能力。数据集最终包含708张具有复杂结构的表格和3,752个高质量问答对，标注过程累计投入超过3,000人工小时。

使用方法

该数据集的使用需结合其多层次的评估框架。研究者可选择单一模态（文本或图像）或混合模态输入，通过标准API接口加载表格数据。评估时建议采用分阶段策略：首先测试模型在基础任务（如事实核查）的表现，再逐步挑战需要多跳推理的复杂任务。对于结构理解任务，推荐使用数据集提供的TreeThinker工具自动解析表格层次关系。实验设计应包含跨领域泛化测试，重点关注模型在科学、经济等专业领域表格上的表现差异。官方代码库提供了标准化的评估脚本，支持F1、EM等7种指标的自动化计算。

背景与挑战

背景概述

RealHiTBench是由浙江大学等机构的研究团队于2025年提出的一个综合性层次化表格基准测试数据集，旨在评估大型语言模型（LLMs）和多模态大型语言模型（MLLMs）在处理复杂表格数据时的能力。该数据集包含来自13个不同开放平台的708张表格和3752个问题，覆盖24个领域，如经济、科学、就业等。RealHiTBench的创建填补了现有基准测试在复杂表格结构理解方面的空白，特别是针对具有多层次表头、嵌套子表和隐式多表连接等复杂结构的表格。该数据集通过严格的标注流程和多样化的任务类型（如事实检查、数值推理、结构理解等），为相关领域的研究提供了重要的评估工具。

当前挑战

RealHiTBench面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，该数据集旨在解决LLMs在理解复杂层次化表格结构方面的能力不足问题，特别是处理多层次表头、嵌套子表和隐式多表连接等复杂结构时的表现。实验结果表明，即使是当前最先进的LLMs，在这些任务上的平均得分也普遍低于70分，显示出该问题的难度。在构建过程方面，挑战包括从多样化的真实场景中收集和标注复杂表格数据的困难，确保标注问题的多样性和复杂性，以及处理不同输入格式（如LaTeX、HTML和PNG）的技术难题。此外，数据集中包含的长表格（超过20K tokens）对模型的输入长度和处理能力提出了更高的要求。

常用场景

经典使用场景

RealHiTBench作为一个专注于评估大型语言模型（LLMs）处理复杂层次化表格能力的基准数据集，其经典使用场景包括表格问答（TableQA）、表格结构理解以及跨模态表格分析。该数据集通过提供多种输入格式（如LaTeX、HTML、PNG）和多样化的任务类型（如事实核查、数值推理、结构理解等），全面测试模型在复杂表格数据上的表现。

解决学术问题

RealHiTBench解决了当前表格分析领域中的关键问题，包括现有基准数据集过于简单、缺乏复杂层次化表格的评估以及跨模态输入支持的不足。该数据集通过引入具有复杂结构的表格和多样化的任务类型，填补了LLMs在层次化表格理解能力评估上的空白，为相关研究提供了可靠的基准。

实际应用

在实际应用中，RealHiTBench可广泛应用于金融、医疗、政府统计等领域，用于评估和优化模型在处理复杂表格数据时的性能。例如，在金融领域，模型可以利用该数据集进行财务报表的自动化分析和问答；在医疗领域，可用于处理复杂的医疗数据表格，辅助医生进行数据驱动的决策。

数据集最近研究