RealHiTBench
收藏RealHiTBench 数据集概述
基本信息
- 名称: RealHiTBench
- 许可证:
- 代码许可证: MIT
- 数据许可证: CC-BY-NC-4.0
- 相关论文: RealHiTBench: A Comprehensive Realistic Hierarchical Table Benchmark for Evaluating LLM-Based Table Analysis
- 数据集地址: Hugging Face 数据集
数据集概述
- 目的: 评估大型语言模型(LLMs)和多模态语言模型(MLMs)在理解和推理复杂现实世界分层表格方面的能力。
- 特点:
- 包含多样化的题目类型和输入格式(LaTeX、HTML、PNG)。
- 涵盖24个领域,包含708个表格和3,752个问答对。
- 包含丰富的结构复杂性,如嵌套子表和多级表头。
复杂结构分类
- 分层列标题: 通过单元格合并形成多级层次结构,组织列属性以反映分类关系。
- 分层行标题: 使用缩进或多个合并列来表示语义层次结构并分类行条目。
- 嵌套子表: 通过全宽水平单元格将表格划分为多个子表,将内容分割成不同的语义区域。
- 多表连接: 包含显式或隐式的多表结构,通常暗示比较或对齐。
- 其他: 非结构元素(如解释性文本或单元格背景颜色)也携带重要信息。
评估流程
-
安装依赖: bash pip install -r requirements.txt
-
下载数据集: 从Hugging Face下载数据集至
data目录。 -
运行模型推理与评估:
-
开源LLMs: bash python inference_llm.py --model [model] --model_dir [model_dir] --max_input [max_input]
-
开源MLMs:
-
图像输入: bash python inference_mlm.py --model [model] --model_dir [model_dir] --max_input [max_input]
-
图像+文本输入: bash python inference_mix.py --model [model] --model_dir [model_dir] --max_input [max_input]
-
-
闭源模型: bash python inference_close.py --model [model] --api_key [api_key] --base_url [base_url]
-
TreeThinker方法
- 描述: 一种通过将表格层次结构注入指令以增强推理的管道。
- 特点: 利用树结构组织分层表头,引导语言模型更好地感知表格结构。
- 评估: 可通过替换Python程序(如将
inference_llm.py改为inference_llm_tree_self_v3_1.py)来评估模型与TreeThinker结合的性能。
引用
bibtext @misc{wu2025realhitbenchcomprehensiverealistichierarchical, title={RealHiTBench: A Comprehensive Realistic Hierarchical Table Benchmark for Evaluating LLM-Based Table Analysis}, author={Pengzuo Wu and Yuhang Yang and Guangcheng Zhu and Chao Ye and Hong Gu and Xu Lu and Ruixuan Xiao and Bowen Bao and Yijing He and Liangyu Zha and Wentao Ye and Junbo Zhao and Haobo Wang}, year={2025}, eprint={2506.13405}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.13405}, }

- 1RealHiTBench: A Comprehensive Realistic Hierarchical Table Benchmark for Evaluating LLM-Based Table Analysis浙江大学 · 2025年



