TableEval

Hugging Face2025-05-20 更新2025-05-21 收录

下载链接：

https://huggingface.co/datasets/katebor/TableEval

下载链接

链接失效反馈

官方服务：

资源简介：

TableEval数据集旨在对来自科学和非科学来源的表格数据进行(M)LLM性能的基准测试和比较，这些表格数据可以是图像或文本形式。该数据集包含六个子集，从现有基准测试的问题回答(QA)和表格到文本(T2T)任务测试集中衍生而来，总计包含3017个表格和11312个实例。科学子集包括来自预印本和同行评审学术出版物的表格，而非科学子集则包括来自维基百科和财务报告的表格。每个表格都提供了PNG图像和四种文本格式：HTML、XML、LaTeX和字典.Dict。所有任务注释都来自原始数据集。

创建时间：

2025-05-07

原始信息汇总

TableEval 数据集概述

基本信息

许可证: MIT
任务类别: 表格问答(Table-QA)、表格到文本(Table-to-Text)
语言: 英语(en)
数据集名称: TableEval
配置:
- comtqa_fin: ComTQA/FinTabNet/comtqa_fintabnet.json
- comtqa_pmc: ComTQA/PubTab1M/comtqa_pubtab1m.json
- logic2text: Logic2Text/logic2text.json
- logicnlg: LogicNLG/logicnlg.json
- scigen: SciGen/scigen.json
- numericnlg: numericNLG/numericnlg.json

数据集描述

目的: 用于评估和比较(M)LLMs在科学与非科学来源表格(图像vs文本)上的性能
组成:
- 6个子集(来自现有QA和T2T基准测试集)
- 总计3017个表格和11312个实例
表格来源:
- 科学子集: 预印本和同行评审学术出版物
- 非科学子集: Wikipedia和财务报告
表格格式:
- 图像格式: PNG
- 文本格式: HTML、XML、LaTeX、Dictionary(Dict)

子集统计

表格数量

数据集	Image	Dict	LaTeX	HTML	XML
ComTQA(PubTables-1M)	932	932	932	932	932
numericNLG	135	135	135	135	135
SciGen	1035	1035	928	985	961
ComTQA(FinTabNet)	659	659	659	659	659
LogicNLG	184	184	184	184	184
Logic2Text	72	72	72	72	72
总计	3017	3017	2910	2967	2943

实例数量

数据集	Image	Dict	LaTeX	HTML	XML
ComTQA(PubTables-1M)	6232	6232	6232	6232	6232
numericNLG	135	135	135	135	135
SciGen	1035	1035	928	985	961
ComTQA(FinTabNet)	2838	2838	2838	2838	2838
LogicNLG	917	917	917	917	917
Logic2Text	155	155	155	155	155
总计	11312	11312	11205	11262	11238

数据结构

├── ComTQA
│ ├── FinTabNet │ │ ├── comtqa_fintabnet.json │ │ ├── comtqa_fintabnet_imgs.zip │ ├── PubTab1M
│ │ ├── comtqa_pubtab1m.json │ │ ├── comtqa_pubtab1m_imgs.zip │ ├── Logic2Text
│ │ ├── logic2text.json │ │ ├── logic2text_imgs.zip │ ├── LogicNLG
│ │ ├── logicnlg.json │ │ ├── logicnlg_imgs.zip │ ├── SciGen
│ │ ├── scigen.json │ │ ├── scigen_imgs.zip │ ├── numericNLG
│ │ ├── numericnlg.json └── └── └── numericnlg_imgs.zip

引用

bibtex @inproceedings{borisova-ekaterina-2025, title = "Table Understanding and (Multimodal) LLMs: A Cross-Domain Case Study on Scientific vs. Non-Scientific Data", author = "Borisova, Ekaterina and Barth, Fabio and Feldhus, Nils and Ahmad, Raia Abu and Ostendorff, Malte and Ortiz Suarez, Pedro and Rehm, Georg and Möller, Sebastian", booktitle = "Proceedings of the 4th Workshop on Table Representation Learning (TRL)", year = "2025", address = "Vienna, Austria", publisher = "Association for Computational Linguistics", comment = "accepted" }

资金来源

DFG项目NFDI4DS(编号460234259)

搜集汇总

数据集介绍

构建方式

TableEval数据集通过整合六个现有基准测试集的子集构建而成，涵盖科学文献与通用领域的表格数据。其构建过程系统性地从预印本、同行评审期刊、维基百科及财务报告等多元来源提取表格，确保数据来源的多样性与代表性。每个表格均被转化为PNG图像格式，并同步生成HTML、XML、LaTeX和字典四种结构化文本格式，形成多模态数据矩阵。任务标注直接继承自原始数据集，保证了标注逻辑的连贯性与可比性。

特点

该数据集的核心特征在于其跨领域与多模态的双重属性。科学子集囊括学术出版物的复杂表格结构，非科学子集则覆盖维基百科的通用表格与财务报告的专业数据。所有表格均以五类格式并行呈现，为研究表格理解任务中的模态适应性提供了实验基础。数据集规模达3017张表格与11312个实例，在保持数据质量的同时实现了领域平衡，为评估大语言模型在异构表格上的泛化能力建立了标准化测试环境。

使用方法

研究者可通过加载指定配置文件访问不同子集，每个子集以JSON格式存储元数据并配属独立的图像压缩包。实验设计支持横向对比科学与非科学表格的性能差异，以及图像与文本模态的处理效果。使用时可针对特定格式（如LaTeX用于学术排版解析、HTML用于网页表格理解）开展专项研究，或通过多格式联合训练探索模型鲁棒性。基准测试需严格遵循原始任务定义，确保结果与既有研究具有可比性。

背景与挑战

背景概述

TableEval数据集由德国研究基金会资助的NFDI4DS项目于2025年推出，核心研究团队包括Ekaterina Borisova等学者。该数据集旨在系统评估文本与多模态大语言模型在跨领域表格理解任务中的表现，涵盖科学文献与通用领域共3017张表格的多元模态表示。作为表格表示学习领域的重要基准，TableEval通过整合六个现有数据集的测试集，构建了包含预印本、学术期刊论文等科学数据与维基百科、财务报告等非科学数据的对比框架，为探究模型在结构化数据理解中的领域适应性提供了关键实验平台。

当前挑战

该数据集致力于解决表格问答与表格到文本生成任务中的跨领域泛化难题，尤其针对科学文献中复杂表格结构理解与多模态表示的语义对齐问题。构建过程中面临原始数据异构性挑战，需从PDF文档、网页源码等多元来源统一提取HTML/LaTeX/字典等四种文本格式，并保持与PNG图像模态的语义一致性。科学表格特有的数学符号与跨单元格依赖关系进一步增加了标注复杂度，而金融报表中的数值推理逻辑与维基百科表格的常识关联性则对模型的多维度认知能力提出更高要求。

常用场景

经典使用场景

在表格理解研究领域，TableEval数据集通过整合六个子集的测试数据，为评估多模态大语言模型在表格问答和表格到文本生成任务中的表现提供了标准化基准。该数据集特别关注科学文献与非科学来源表格的对比分析，涵盖从医学预印本到财务报告等多样化领域。研究者可利用其提供的PNG图像与四种文本格式，系统评估模型在不同模态下的表格理解能力，为跨领域表格处理研究奠定基础。

衍生相关工作

围绕TableEval数据集已衍生出多项重要研究工作，包括基于跨模态对比的表格理解模型评估框架、针对科学表格特性的专用解析方法，以及结合注意力机制的可解释性分析技术。这些研究不仅深化了对大语言模型表格处理机制的理解，还推动了如TABBIE、TAPAS等表格专用模型的发展。同时，该数据集催生的评估方法论为后续表格理解研究提供了标准化范式，促进了整个领域的规范化发展。

数据集最近研究