TableEval
收藏TableEval 数据集概述
基本信息
- 许可证: MIT
- 任务类别: 表格问答(Table-QA)、表格到文本(Table-to-Text)
- 语言: 英语(en)
- 数据集名称: TableEval
- 配置:
- comtqa_fin: ComTQA/FinTabNet/comtqa_fintabnet.json
- comtqa_pmc: ComTQA/PubTab1M/comtqa_pubtab1m.json
- logic2text: Logic2Text/logic2text.json
- logicnlg: LogicNLG/logicnlg.json
- scigen: SciGen/scigen.json
- numericnlg: numericNLG/numericnlg.json
数据集描述
- 目的: 用于评估和比较(M)LLMs在科学与非科学来源表格(图像vs文本)上的性能
- 组成:
- 6个子集(来自现有QA和T2T基准测试集)
- 总计3017个表格和11312个实例
- 表格来源:
- 科学子集: 预印本和同行评审学术出版物
- 非科学子集: Wikipedia和财务报告
- 表格格式:
- 图像格式: PNG
- 文本格式: HTML、XML、LaTeX、Dictionary(Dict)
子集统计
表格数量
| 数据集 | Image | Dict | LaTeX | HTML | XML |
|---|---|---|---|---|---|
| ComTQA(PubTables-1M) | 932 | 932 | 932 | 932 | 932 |
| numericNLG | 135 | 135 | 135 | 135 | 135 |
| SciGen | 1035 | 1035 | 928 | 985 | 961 |
| ComTQA(FinTabNet) | 659 | 659 | 659 | 659 | 659 |
| LogicNLG | 184 | 184 | 184 | 184 | 184 |
| Logic2Text | 72 | 72 | 72 | 72 | 72 |
| 总计 | 3017 | 3017 | 2910 | 2967 | 2943 |
实例数量
| 数据集 | Image | Dict | LaTeX | HTML | XML |
|---|---|---|---|---|---|
| ComTQA(PubTables-1M) | 6232 | 6232 | 6232 | 6232 | 6232 |
| numericNLG | 135 | 135 | 135 | 135 | 135 |
| SciGen | 1035 | 1035 | 928 | 985 | 961 |
| ComTQA(FinTabNet) | 2838 | 2838 | 2838 | 2838 | 2838 |
| LogicNLG | 917 | 917 | 917 | 917 | 917 |
| Logic2Text | 155 | 155 | 155 | 155 | 155 |
| 总计 | 11312 | 11312 | 11205 | 11262 | 11238 |
数据结构
├── ComTQA
│ ├── FinTabNet
│ │ ├── comtqa_fintabnet.json
│ │ ├── comtqa_fintabnet_imgs.zip
│ ├── PubTab1M
│ │ ├── comtqa_pubtab1m.json
│ │ ├── comtqa_pubtab1m_imgs.zip
│ ├── Logic2Text
│ │ ├── logic2text.json
│ │ ├── logic2text_imgs.zip
│ ├── LogicNLG
│ │ ├── logicnlg.json
│ │ ├── logicnlg_imgs.zip
│ ├── SciGen
│ │ ├── scigen.json
│ │ ├── scigen_imgs.zip
│ ├── numericNLG
│ │ ├── numericnlg.json
└── └── └── numericnlg_imgs.zip
引用
bibtex @inproceedings{borisova-ekaterina-2025, title = "Table Understanding and (Multimodal) LLMs: A Cross-Domain Case Study on Scientific vs. Non-Scientific Data", author = "Borisova, Ekaterina and Barth, Fabio and Feldhus, Nils and Ahmad, Raia Abu and Ostendorff, Malte and Ortiz Suarez, Pedro and Rehm, Georg and Möller, Sebastian", booktitle = "Proceedings of the 4th Workshop on Table Representation Learning (TRL)", year = "2025", address = "Vienna, Austria", publisher = "Association for Computational Linguistics", comment = "accepted" }
资金来源
- DFG项目NFDI4DS(编号460234259)




