TableEval

github2025-06-05 更新2025-06-06 收录

下载链接：

https://github.com/wenge-research/TableEval

下载链接

链接失效反馈

官方服务：

资源简介：

TableEval是第一个支持简体中文、繁体中文和英文的跨语言表格问答基准。它包含金融披露、学术论文、行政记录和行业报告等真实领域的数据。数据集包含617个经过仔细检查的Excel表格，具有多样的结构，如分层标题、嵌套单元格和合并布局，以及2,325个QA对，涵盖6个主要任务和16个细粒度子任务，评估各种能力（如信息检索、推理、数据分析和多轮对话）。

TableEval is the first cross-lingual table question answering benchmark that supports Simplified Chinese, Traditional Chinese, and English. It contains real-world domain data sourced from financial disclosures, academic papers, administrative records, and industry reports. The dataset includes 617 meticulously curated Excel tables with diverse structures such as hierarchical headers, nested cells, and merged layouts, as well as 2,325 QA pairs covering 6 major tasks and 16 fine-grained subtasks, which evaluate a range of capabilities including information retrieval, reasoning, data analysis, and multi-turn dialogue.

创建时间：

2025-06-04

原始信息汇总

TableEval 数据集概述

📌 数据集简介

TableEval 是首个支持简体中文、繁体中文和英文的跨语言表格问答基准测试集，用于评估模型在复杂表格数据上的问答能力。

🌍 数据特点

真实领域：涵盖财务披露、学术论文、行政记录和行业报告。
多语言支持：简体中文、繁体中文、英文。
复杂表格结构：包含层级标题、嵌套单元格和合并布局等多样化结构。

📊 数据规模

表格数量：617 个经过仔细检查的 Excel 表格。
问答对数量：2,325 个 QA 对。
任务分类：
- 6 个主要任务
- 16 个细分子任务

🎯 评估框架 (SEAT)

细粒度评估：在子问题级别进行评估。
可视化正确性：利用 LLMs 提取最终答案并与参考答案逐一比较。
评估指标：使用 F1-score，与人类判断高度一致。

🏅 排行榜表现

最佳模型：o1-preview (平均得分 83.43)
任务表现：
- 信息检索：最高 91.20 (deepseek-chat)
- 数值分析：最高 91.06 (claude-3-5-sonnet-20241022)
- 推理：最高 87.91 (deepseek-r1)

📂 文件结构

TableEval-main/ ├── assets/ # 静态资源 ├── config/ # 配置文件 ├── data/ # 数据集 │ ├── tables/ # Excel表格 │ ├── TableEval-meta.jsonl # 表格元数据 │ └── TableEval-test.jsonl # 测试数据集 ├── outputs/ # 输出目录 ├── openai_client.py # API客户端 ├── requirements.txt # 依赖项 ├── run_evaluation.py # 评估脚本 └── run_prediction.py # 预测生成脚本

📜 引用信息

bibtex @misc{zhu2025tableevalrealworldbenchmarkcomplex, title={TableEval: A Real-World Benchmark for Complex, Multilingual, and Multi-Structured Table Question Answering}, author={Junnan Zhu and Jingyi Wang and Bohan Yu and Xiaoyu Wu and Junbo Li and Lei Wang and Nan Xu}, year={2025}, eprint={2506.03949}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.03949}, }

搜集汇总

数据集介绍

构建方式

TableEval作为首个支持简体中文、繁体中文和英文的跨语言表格问答基准，其构建过程体现了严谨的学术态度。研究团队从真实世界场景中精心筛选了617个Excel表格，涵盖财务报告、学术论文、行政记录和行业报告四大领域。这些表格经过人工校验，保留了层次化表头、嵌套单元格和合并布局等复杂结构特征。基于此构建的2,325个问答对系统性地覆盖了6大类任务和16个细分子任务，每个问答对都经过专家级标注以确保质量。

使用方法

使用TableEval需遵循标准化流程。首先通过GitHub仓库获取数据集和评估代码，配置Python3.11环境并安装依赖项。评估时需在api_config.yaml中设置API密钥，支持OpenAI兼容接口。运行run_prediction.py生成模型预测，可选择markdown、html或latex三种表格呈现格式。随后通过run_evaluation.py启动SEAT评估框架，该过程支持多任务并行处理，最大工作线程数可调至5个。系统会输出包含细粒度指标的分析报告，用户可通过修改prompts.yaml自定义评估提示模板以适应特定需求。

背景与挑战

背景概述

TableEval是由Wenge Research团队于2025年推出的跨语言表格问答基准测试数据集，旨在解决复杂、多语言、多结构表格理解这一自然语言处理领域的核心问题。作为首个支持简体中文、繁体中文和英语的表格问答评测基准，该数据集收录了来自财务报告、学术论文、行政记录和行业报告等真实场景的617份Excel表格，包含2,325个涵盖6大类任务和16个子任务的问答对。其创新性评估框架SEAT通过细粒度答案比对和可视化评估机制，显著提升了表格问答系统的评测效度，为金融分析、知识检索等领域的智能系统开发提供了重要基准。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，需解决多语言表格中层级表头、嵌套单元格等复杂结构的语义解析难题，以及跨模态（文本-表格）推理任务中的数值计算和逻辑推断问题；在构建过程中，团队需克服真实场景表格的异构性处理、多语言标注一致性维护，以及评估框架与人类判断标准对齐等工程挑战。当前主流模型在表格结构理解子任务上的表现普遍低于60分，表明复杂表格的语义解析仍是亟待突破的技术瓶颈。

常用场景

经典使用场景

在跨语言表格问答系统研究中，TableEval作为首个支持简繁体中文和英文的基准测试集，常被用于评估模型对复杂表格结构的理解能力。其包含的617个真实场景Excel表格和2,325个跨6大任务的问答对，为研究者提供了检验模型在层级表头、合并单元格等非规则结构下信息抽取性能的标准平台。金融报表解析和学术论文表格理解成为该数据集最具代表性的应用场景。

解决学术问题

TableEval有效解决了表格问答领域三个核心难题：跨语言评估体系缺失、复杂表格结构理解不足、多轮对话任务评估标准不统一。通过引入包含16个子任务的细粒度分类体系，该数据集首次实现了对模型数值分析、推理能力、结构理解等维度的系统性测评。其提出的SEAT评估框架采用子问题级F1-score度量，显著提升了自动评估与人工判断的一致性。

实际应用

在金融科技领域，TableEval支撑着上市公司财报自动解析系统的开发；在政务数字化进程中，该数据集训练的模型可高效处理行政记录表格中的多语言查询。教育机构利用其丰富的任务类型设计智能辅导系统，而医疗健康领域则借助其中的多轮对话数据优化病历表格交互式查询体验。

数据集最近研究