RealHiTBench
收藏RealHiTBench 数据集概述
基本信息
- 名称: RealHiTBench
- 许可证:
- 代码许可证: MIT
- 数据许可证: CC-BY-NC-4.0
- 论文: RealHiTBench: A Comprehensive Realistic Hierarchical Table Benchmark for Evaluating LLM-Based Table Analysis
- 数据集地址: Hugging Face 数据集
数据集概述
- 目的: 评估大型语言模型(LLMs)和多模态语言模型(MLMs)在复杂、真实世界分层表格上的理解和推理能力。
- 特点:
- 包含多样化的题目类型和输入格式(LaTeX、HTML、PNG)。
- 涵盖24个领域,包含708个表格和3,752个问答对。
- 包含丰富的结构复杂性,如嵌套子表和多级标题。
复杂结构分类
- 分层列标题: 通过单元格合并形成多级层次结构,组织列属性以反映分类关系。
- 分层行标题: 使用缩进或多个合并列表示语义层次结构,分类行条目。
- 嵌套子表: 通过全宽水平单元格将表格划分为多个子表,分割内容到不同的语义区域。
- 多表连接: 包含显式或隐式的多表结构,通常暗示比较或对齐。
- 其他: 非结构元素(如解释性文本或单元格背景颜色)也携带重要信息。
评估流程
-
安装依赖: bash pip install -r requirements.txt
-
下载数据集: 从Hugging Face下载数据集到
data目录。 -
运行模型推理与评估:
-
开源LLMs: bash python inference_llm.py --model [model] --model_dir [model_dir] --max_input [max_input]
-
开源MLMs:
-
图像输入: bash python inference_mlm.py --model [model] --model_dir [model_dir] --max_input [max_input]
-
图像+文本输入: bash python inference_mix.py --model [model] --model_dir [model_dir] --max_input [max_input]
-
-
闭源模型: bash python inference_close.py --model [model] --api_key [api_key] --base_url [base_url]
-
TreeThinker
- 描述: 一种通过将表格层次结构注入指令以增强推理的管道。
- 特点: 利用树结构组织分层标题,引导语言模型更好地感知表格结构。
引用
bibtext @misc{wu2025realhitbenchcomprehensiverealistichierarchical, title={RealHiTBench: A Comprehensive Realistic Hierarchical Table Benchmark for Evaluating LLM-Based Table Analysis}, author={Pengzuo Wu and Yuhang Yang and Guangcheng Zhu and Chao Ye and Hong Gu and Xu Lu and Ruixuan Xiao and Bowen Bao and Yijing He and Liangyu Zha and Wentao Ye and Junbo Zhao and Haobo Wang}, year={2025}, eprint={2506.13405}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.13405}, }




