five

TableEval

收藏
Hugging Face2025-05-20 更新2025-05-21 收录
下载链接:
https://huggingface.co/datasets/katebor/TableEval
下载链接
链接失效反馈
官方服务:
资源简介:
TableEval数据集旨在对来自科学和非科学来源的表格数据进行(M)LLM性能的基准测试和比较,这些表格数据可以是图像或文本形式。该数据集包含六个子集,从现有基准测试的问题回答(QA)和表格到文本(T2T)任务测试集中衍生而来,总计包含3017个表格和11312个实例。科学子集包括来自预印本和同行评审学术出版物的表格,而非科学子集则包括来自维基百科和财务报告的表格。每个表格都提供了PNG图像和四种文本格式:HTML、XML、LaTeX和字典.Dict。所有任务注释都来自原始数据集。
创建时间:
2025-05-07
原始信息汇总

TableEval 数据集概述

基本信息

  • 许可证: MIT
  • 任务类别: 表格问答(Table-QA)、表格到文本(Table-to-Text)
  • 语言: 英语(en)
  • 数据集名称: TableEval
  • 配置:
    • comtqa_fin: ComTQA/FinTabNet/comtqa_fintabnet.json
    • comtqa_pmc: ComTQA/PubTab1M/comtqa_pubtab1m.json
    • logic2text: Logic2Text/logic2text.json
    • logicnlg: LogicNLG/logicnlg.json
    • scigen: SciGen/scigen.json
    • numericnlg: numericNLG/numericnlg.json

数据集描述

  • 目的: 用于评估和比较(M)LLMs在科学与非科学来源表格(图像vs文本)上的性能
  • 组成:
    • 6个子集(来自现有QA和T2T基准测试集)
    • 总计3017个表格和11312个实例
  • 表格来源:
    • 科学子集: 预印本和同行评审学术出版物
    • 非科学子集: Wikipedia和财务报告
  • 表格格式:
    • 图像格式: PNG
    • 文本格式: HTML、XML、LaTeX、Dictionary(Dict)

子集统计

表格数量

数据集 Image Dict LaTeX HTML XML
ComTQA(PubTables-1M) 932 932 932 932 932
numericNLG 135 135 135 135 135
SciGen 1035 1035 928 985 961
ComTQA(FinTabNet) 659 659 659 659 659
LogicNLG 184 184 184 184 184
Logic2Text 72 72 72 72 72
总计 3017 3017 2910 2967 2943

实例数量

数据集 Image Dict LaTeX HTML XML
ComTQA(PubTables-1M) 6232 6232 6232 6232 6232
numericNLG 135 135 135 135 135
SciGen 1035 1035 928 985 961
ComTQA(FinTabNet) 2838 2838 2838 2838 2838
LogicNLG 917 917 917 917 917
Logic2Text 155 155 155 155 155
总计 11312 11312 11205 11262 11238

数据结构

├── ComTQA
│ ├── FinTabNet │ │ ├── comtqa_fintabnet.json │ │ ├── comtqa_fintabnet_imgs.zip │ ├── PubTab1M
│ │ ├── comtqa_pubtab1m.json │ │ ├── comtqa_pubtab1m_imgs.zip │ ├── Logic2Text
│ │ ├── logic2text.json │ │ ├── logic2text_imgs.zip │ ├── LogicNLG
│ │ ├── logicnlg.json │ │ ├── logicnlg_imgs.zip │ ├── SciGen
│ │ ├── scigen.json │ │ ├── scigen_imgs.zip │ ├── numericNLG
│ │ ├── numericnlg.json └── └── └── numericnlg_imgs.zip

引用

bibtex @inproceedings{borisova-ekaterina-2025, title = "Table Understanding and (Multimodal) LLMs: A Cross-Domain Case Study on Scientific vs. Non-Scientific Data", author = "Borisova, Ekaterina and Barth, Fabio and Feldhus, Nils and Ahmad, Raia Abu and Ostendorff, Malte and Ortiz Suarez, Pedro and Rehm, Georg and Möller, Sebastian", booktitle = "Proceedings of the 4th Workshop on Table Representation Learning (TRL)", year = "2025", address = "Vienna, Austria", publisher = "Association for Computational Linguistics", comment = "accepted" }

资金来源

  • DFG项目NFDI4DS(编号460234259)
搜集汇总
数据集介绍
main_image_url
构建方式
TableEval数据集通过整合六个现有基准测试集的子集构建而成,涵盖科学文献与通用领域的表格数据。其构建过程系统性地从预印本、同行评审期刊、维基百科及财务报告等多元来源提取表格,确保数据来源的多样性与代表性。每个表格均被转化为PNG图像格式,并同步生成HTML、XML、LaTeX和字典四种结构化文本格式,形成多模态数据矩阵。任务标注直接继承自原始数据集,保证了标注逻辑的连贯性与可比性。
特点
该数据集的核心特征在于其跨领域与多模态的双重属性。科学子集囊括学术出版物的复杂表格结构,非科学子集则覆盖维基百科的通用表格与财务报告的专业数据。所有表格均以五类格式并行呈现,为研究表格理解任务中的模态适应性提供了实验基础。数据集规模达3017张表格与11312个实例,在保持数据质量的同时实现了领域平衡,为评估大语言模型在异构表格上的泛化能力建立了标准化测试环境。
使用方法
研究者可通过加载指定配置文件访问不同子集,每个子集以JSON格式存储元数据并配属独立的图像压缩包。实验设计支持横向对比科学与非科学表格的性能差异,以及图像与文本模态的处理效果。使用时可针对特定格式(如LaTeX用于学术排版解析、HTML用于网页表格理解)开展专项研究,或通过多格式联合训练探索模型鲁棒性。基准测试需严格遵循原始任务定义,确保结果与既有研究具有可比性。
背景与挑战
背景概述
TableEval数据集由德国研究基金会资助的NFDI4DS项目于2025年推出,核心研究团队包括Ekaterina Borisova等学者。该数据集旨在系统评估文本与多模态大语言模型在跨领域表格理解任务中的表现,涵盖科学文献与通用领域共3017张表格的多元模态表示。作为表格表示学习领域的重要基准,TableEval通过整合六个现有数据集的测试集,构建了包含预印本、学术期刊论文等科学数据与维基百科、财务报告等非科学数据的对比框架,为探究模型在结构化数据理解中的领域适应性提供了关键实验平台。
当前挑战
该数据集致力于解决表格问答与表格到文本生成任务中的跨领域泛化难题,尤其针对科学文献中复杂表格结构理解与多模态表示的语义对齐问题。构建过程中面临原始数据异构性挑战,需从PDF文档、网页源码等多元来源统一提取HTML/LaTeX/字典等四种文本格式,并保持与PNG图像模态的语义一致性。科学表格特有的数学符号与跨单元格依赖关系进一步增加了标注复杂度,而金融报表中的数值推理逻辑与维基百科表格的常识关联性则对模型的多维度认知能力提出更高要求。
常用场景
经典使用场景
在表格理解研究领域,TableEval数据集通过整合六个子集的测试数据,为评估多模态大语言模型在表格问答和表格到文本生成任务中的表现提供了标准化基准。该数据集特别关注科学文献与非科学来源表格的对比分析,涵盖从医学预印本到财务报告等多样化领域。研究者可利用其提供的PNG图像与四种文本格式,系统评估模型在不同模态下的表格理解能力,为跨领域表格处理研究奠定基础。
衍生相关工作
围绕TableEval数据集已衍生出多项重要研究工作,包括基于跨模态对比的表格理解模型评估框架、针对科学表格特性的专用解析方法,以及结合注意力机制的可解释性分析技术。这些研究不仅深化了对大语言模型表格处理机制的理解,还推动了如TABBIE、TAPAS等表格专用模型的发展。同时,该数据集催生的评估方法论为后续表格理解研究提供了标准化范式,促进了整个领域的规范化发展。
数据集最近研究
最新研究方向
在表格理解领域,TableEval数据集正推动跨模态与跨领域的前沿探索。该数据集通过整合科学文献与通用领域表格,系统评估多模态大语言模型在图像与文本格式下的表现差异。当前研究聚焦于模型对学术表格的结构化解析能力,揭示其在处理复杂科学数据时存在的语义鸿沟。随着数字化科研进程加速,该工作为提升学术表格的机器可读性提供了关键基准,直接影响科学知识挖掘与金融数据分析的自动化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作