RealHiTBench

github2025-06-17 更新2025-06-20 收录

下载链接：

https://github.com/cspzyy/RealHiTBench

下载链接

链接失效反馈

官方服务：

资源简介：

RealHiTBench是一个具有挑战性的基准数据集，旨在评估大型语言模型（LLMs）和多模态LLMs（MLMs）在理解和推理复杂、现实世界中的层次表格方面的能力。它涵盖了24个领域的708个表格和3,752个问答对，包括多种问题类型和输入格式（如LaTeX、HTML和PNG）。与现有专注于平面结构的数据集不同，RealHiTBench包含了丰富的结构复杂性，如嵌套子表和多级标题，使其成为推进表格理解在文本和视觉模态中的全面资源。

RealHiTBench is a challenging benchmark dataset designed to evaluate the capabilities of Large Language Models (LLMs) and Multimodal Large Language Models (MLMs) in understanding and reasoning over complex, real-world hierarchical tables. It includes 708 tables and 3,752 question-answer pairs across 24 domains, covering diverse question types and input formats (e.g., LaTeX, HTML, and PNG). Unlike existing datasets that focus on flat table structures, RealHiTBench features rich structural complexities including nested subtables and multi-level headers, making it a comprehensive resource for advancing table understanding across both textual and visual modalities.

创建时间：

2025-05-31

原始信息汇总

RealHiTBench 数据集概述

基本信息

名称: RealHiTBench
许可证:
- 代码许可证: MIT
- 数据许可证: CC-BY-NC-4.0
论文: RealHiTBench: A Comprehensive Realistic Hierarchical Table Benchmark for Evaluating LLM-Based Table Analysis
数据集地址: Hugging Face 数据集

数据集概述

目的: 评估大型语言模型（LLMs）和多模态语言模型（MLMs）在复杂、真实世界分层表格上的理解和推理能力。
特点:
- 包含多样化的题目类型和输入格式（LaTeX、HTML、PNG）。
- 涵盖24个领域，包含708个表格和3,752个问答对。
- 包含丰富的结构复杂性，如嵌套子表和多级标题。

复杂结构分类

分层列标题: 通过单元格合并形成多级层次结构，组织列属性以反映分类关系。
分层行标题: 使用缩进或多个合并列表示语义层次结构，分类行条目。
嵌套子表: 通过全宽水平单元格将表格划分为多个子表，分割内容到不同的语义区域。
多表连接: 包含显式或隐式的多表结构，通常暗示比较或对齐。
其他: 非结构元素（如解释性文本或单元格背景颜色）也携带重要信息。

评估流程

安装依赖: bash pip install -r requirements.txt
下载数据集: 从Hugging Face下载数据集到data目录。
运行模型推理与评估:
- 开源LLMs: bash python inference_llm.py --model [model] --model_dir [model_dir] --max_input [max_input]
- 开源MLMs:
  - 图像输入: bash python inference_mlm.py --model [model] --model_dir [model_dir] --max_input [max_input]
  - 图像+文本输入: bash python inference_mix.py --model [model] --model_dir [model_dir] --max_input [max_input]
- 闭源模型: bash python inference_close.py --model [model] --api_key [api_key] --base_url [base_url]

TreeThinker

描述: 一种通过将表格层次结构注入指令以增强推理的管道。
特点: 利用树结构组织分层标题，引导语言模型更好地感知表格结构。

引用

bibtext @misc{wu2025realhitbenchcomprehensiverealistichierarchical, title={RealHiTBench: A Comprehensive Realistic Hierarchical Table Benchmark for Evaluating LLM-Based Table Analysis}, author={Pengzuo Wu and Yuhang Yang and Guangcheng Zhu and Chao Ye and Hong Gu and Xu Lu and Ruixuan Xiao and Bowen Bao and Yijing He and Liangyu Zha and Wentao Ye and Junbo Zhao and Haobo Wang}, year={2025}, eprint={2506.13405}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.13405}, }

搜集汇总

数据集介绍

构建方式

在数据科学领域，复杂表格理解一直是自然语言处理技术的难点。RealHiTBench通过系统化采集真实世界中的层次化表格，构建了一个具有挑战性的评估基准。该数据集从24个不同领域精选708张具有嵌套子表、多级表头等复杂结构的表格，并标注了3,752组问答对。构建过程中特别注重表格形态的多样性，涵盖了LaTeX、HTML和PNG三种输入格式，确保能够全面评估模型在文本和视觉模态下的表格理解能力。

特点

作为当前最全面的层次化表格基准，RealHiTBench展现出显著的专业特性。其核心价值在于包含五种典型复杂结构：层次化列标题通过单元格合并形成多级分类关系；层次化行标题采用缩进或多列合并表达语义层级；嵌套子表通过全宽水平单元格划分语义区域；多表连接结构隐含比较关系；以及包含解释性文本等非结构元素。这种精心设计的结构多样性，使得该数据集能有效检验模型对真实场景中复杂表格的解析能力。

使用方法

该数据集为研究者提供了标准化的评估流程。使用前需通过Hugging Face平台获取数据集，并安装指定依赖环境。评估框架支持开源大语言模型、多模态模型及其组合的测试，通过专用脚本如inference_llm.py实现模型推理。针对闭源模型设计了API调用方案，确保评估的广泛适用性。创新性地，研究者可结合提出的TreeThinker方法，通过修改推理脚本测试层次结构增强策略的效果，为复杂表格分析任务提供新的技术路线。

背景与挑战

背景概述

RealHiTBench是由Pengzuo Wu等研究人员于2025年提出的一个综合性基准数据集，旨在评估大型语言模型（LLMs）和多模态语言模型（MLMs）在复杂现实世界分层表格上的理解和推理能力。该数据集由708张表格和3,752个问答对组成，覆盖24个不同领域，提供了LaTeX、HTML和PNG等多种输入格式。其核心研究问题聚焦于解决传统表格数据集在层次结构上的不足，通过引入嵌套子表和多级表头等复杂结构，推动了表格理解领域的研究进展。RealHiTBench不仅填补了现有数据集的空白，还为多模态表格分析任务提供了重要的评估资源。

当前挑战

RealHiTBench面临的挑战主要体现在两个方面：领域问题挑战和构建过程挑战。在领域问题方面，分层表格的复杂结构（如多级表头、嵌套子表和多表连接）对模型的语义理解和推理能力提出了更高要求，现有模型在处理此类非扁平化结构时表现不佳。构建过程中，数据收集需确保表格的多样性和真实性，同时标注复杂的层次关系需要大量人工校验；多模态数据（如文本和图像）的同步对齐也增加了技术难度。这些挑战共同构成了该数据集在推动表格分析技术发展中的关键瓶颈。

常用场景

经典使用场景

RealHiTBench作为评估大型语言模型（LLMs）和多模态语言模型（MLMs）处理复杂层次表格能力的基准，广泛应用于自然语言处理领域的研究。其多样化的表格结构和问题类型，包括LaTeX、HTML和PNG格式，为模型在跨模态场景下的表现提供了全面的测试平台。特别是在处理多级表头、嵌套子表格等复杂结构时，该数据集能够有效检验模型的结构感知和推理能力。

衍生相关工作

基于RealHiTBench的层次表格特性，学术界已衍生出包括TreeThinker在内的多项创新工作。这些研究主要聚焦于表格结构的神经符号表示、层次感知的注意力机制设计等方向。数据集提出的评估标准也被后续研究广泛采纳，成为衡量表格理解模型性能的重要参照。相关成果在知识图谱构建、智能文档处理等领域产生了持续影响。

数据集最近研究