TableEval
收藏arXiv2025-06-04 更新2025-06-06 收录
下载链接:
https://github.com/wenge-research/TableEval
下载链接
链接失效反馈官方服务:
资源简介:
TableEval是一个针对复杂、多语言和多结构表格问答的基准数据集,旨在评估大型语言模型在真实世界表格问答任务上的能力。该数据集包括从政府、金融、学术和工业报告等四个领域收集的具有各种结构(如简洁、层次结构和嵌套结构)的表格。此外,TableEval还包含简体中文、繁体中文和英文的跨语言场景。为了最小化数据泄露的风险,所有数据均来自最近的现实世界文档。该数据集包含六种高级任务和16种细粒度问题类型,从简单的查找查询到数值计算、比较分析和多跳问题。数据集还包含多轮对话任务,要求模型在多个步骤中动态推理。为了评估模型在表格问答任务中的表现,我们提出了SEAT(Structured Evaluation for Answers in TableQA),这是一种新的表格问答评估框架,它利用LLM与精心设计的提示来比较生成的响应与结构化的参考答案。SEAT通过一个两步过程评估响应的语义正确性:(1)从模型的响应中提取每个子问题的关键答案,并将每个答案与参考答案进行比较,以识别匹配或不同的元素。如果没有提供多个子问题,则将原始问题视为单个子问题。(2)以结构化的JSON格式呈现评估结果,并汇总最终分数,以便轻松跟踪和验证。这种方法提供了一种可靠、可扩展的评估方法,超越了表面级的匹配,提供了更准确的评估。
TableEval is a benchmark dataset for complex, multilingual, and multi-structure table question answering, designed to evaluate the capabilities of large language models (LLMs) on real-world table question answering tasks. This dataset includes tables with various structures (e.g., simple, hierarchical, and nested structures) collected from four domains: government, finance, academic, and industrial reports. Additionally, TableEval covers cross-lingual scenarios in Simplified Chinese, Traditional Chinese, and English. To minimize the risk of data leakage, all data is sourced from recent real-world documents. The dataset contains six high-level tasks and 16 fine-grained question types, ranging from simple lookup queries to numerical calculations, comparative analysis, and multi-hop questions. It also includes multi-turn dialogue tasks that require models to perform dynamic reasoning across multiple steps. To evaluate model performance on table question answering tasks, we propose SEAT (Structured Evaluation for Answers in TableQA), a novel table question answering evaluation framework that leverages LLMs and meticulously designed prompts to compare generated responses against structured reference answers. SEAT evaluates the semantic correctness of responses through a two-step process: (1) Extract key answers for each sub-question from the model's response, and compare each answer with the reference answer to identify matching or differing elements. If multiple sub-questions are not provided, the original question is treated as a single sub-question. (2) Present the evaluation results in structured JSON format and aggregate final scores for easy tracking and verification. This approach provides a reliable, scalable evaluation method that transcends surface-level matching to deliver more accurate assessments.
提供机构:
北京温格科技有限公司, 中国科学院自动化研究所模式识别国家重点实验室, 中国科学院大学前沿交叉学科研究院
创建时间:
2025-06-04
原始信息汇总
TableEval 数据集概述
数据集简介
TableEval是首个支持简体中文、繁体中文和英文的跨语言表格问答基准测试集,源自论文《TableEval: A Real-World Benchmark for Complex, Multilingual, and Multi-Structured Table Question Answering》。
核心特性
- 真实领域数据:涵盖财务披露、学术论文、行政记录和行业报告
- 多语言支持:简体中文/繁体中文/英文三语种
- 复杂表格结构:包含层级表头、嵌套单元格、合并布局等
数据规模
- 表格数量:617个经人工校验的Excel表格
- 问答对数量:2,325对
- 任务分类:
- 6大类任务(信息检索、数值分析、推理、数据分析、多轮对话、表格结构理解)
- 16个细分子任务
评估框架SEAT
- 子问题级评估:细粒度分析模型表现
- 可视化验证:通过LLM提取答案并比对参考结果
- 评估指标:采用F1-score,与人工判断高度一致
模型表现(截至2025-03-06)
| 模型名称 | 平均分 | 信息检索 | 数值分析 | 推理 | 数据分析 | 多轮对话 | 表格结构理解 |
|---|---|---|---|---|---|---|---|
| o1-preview | 83.43 | 88.30 | 87.08 | 82.88 | 77.89 | 83.38 | 81.03 |
| claude-3-5-sonnet | 83.32 | 89.62 | 91.06 | 85.76 | 84.01 | 87.94 | 61.51 |
| deepseek-r1 | 82.46 | 90.15 | 88.56 | 87.91 | 77.79 | 78.29 | 72.05 |
完整榜单包含19个模型在6类任务上的表现数据
使用方式
- 环境配置:Python 3.11 + 依赖库(requirements.txt)
- 评估流程:
- 配置API密钥(支持OpenAI兼容接口)
- 生成模型响应(run_prediction.py)
- 执行评估(run_evaluation.py)
文件结构
config/ ├── api_config.yaml # API配置 ├── prompts.yaml # 提示模板 data/ ├── tables/ # Excel表格 ├── TableEval-test.jsonl # 测试集 outputs/ ├── prediction/ # 模型输出 ├── evaluation/ # 评估结果
引用格式
bibtex @misc{zhu2025tableevalrealworldbenchmarkcomplex, title={TableEval: A Real-World Benchmark for Complex, Multilingual, and Multi-Structured Table Question Answering}, author={Junnan Zhu et al.}, year={2025}, eprint={2506.03949}, primaryClass={cs.CL} }
搜集汇总
数据集介绍

构建方式
TableEval数据集通过多阶段流程构建,首先从金融报告、行业研究、学术论文和政府数据四大领域收集2024年发布的真实文档,采用PDF/HTML解析工具提取29,241张表格并保留上下文文本。经过结构分类和平衡采样后,617张表格通过模板提示和角色提示策略生成问题,结合K-means聚类去重得到34,161个问题。最终2,325个QA对经过GPT-4o初生成、多模型一致性校验和两阶段人工标注(含结构化答案提取)完成构建,确保语义准确性和领域多样性。
特点
TableEval的核心价值在于其真实性和复杂性:包含简洁型、层次型和嵌套型等7类表格结构,覆盖简繁中文和英文三语场景,问题类型涵盖16种子任务如多跳推理、数值计算和合并单元格检测。数据集创新性地采用SEAT评估框架,通过子问题级结构化比对解决传统n-gram匹配的语义偏差问题,实验显示其与人工评判的Pearson相关系数达0.9373。特别设计的跨域任务(如财务指标趋势分析与政府增长率查询)和7.3%的多轮对话样本,有效模拟了工业级应用场景。
使用方法
使用TableEval需遵循结构化评估协议:将模型输出与JSON格式参考答案输入SEAT框架,通过LLM驱动的Text2Json转换进行子问题分解和关键答案提取。评估时采用两阶段流程——先比对每个子问题的语义正确性,再聚合计算整体F1分数。对于多轮对话任务需逐轮评估后取均值。建议配合提供的CoT推理提示模板(针对不同任务类型动态调整),并注意表格格式(Markdown/HTML/Latex)对结构理解任务的影响差异达22.16%。
背景与挑战
背景概述
TableEval是由北京文格科技有限公司与中国科学院自动化研究所多模态人工智能系统国家重点实验室联合研发的表格问答(TableQA)评测基准,于2025年6月正式发布。该数据集针对大语言模型在真实场景下面临的多结构表格理解、多语言处理和领域特定推理等核心问题,覆盖政府、金融、学术和行业报告四大领域,包含简繁体中文和英文三种语言。作为首个融合复杂表格结构、跨语言和跨领域特性的评测基准,TableEval通过采用2024年最新文档数据有效规避了预训练数据泄露问题,并创新性地提出了基于子问题语义对齐的SEAT评估框架,为提升表格语义理解能力提供了重要研究基础。
当前挑战
TableEval需解决三大核心挑战:在领域问题层面,现有基准多局限于简单平面表格,难以评估模型对层级嵌套等复杂结构的解析能力,且跨语言场景支持不足;在构建过程中,需克服多源异构表格解析、跨语言问题生成等工程难题,特别是金融报表等专业领域数据的语义标注质量控制;在评估维度上,传统精确匹配指标无法有效捕捉语义准确性,需设计SEAT框架来实现基于子问题分解的细粒度评估。此外,数据采集阶段需平衡不同表格结构的代表性,并确保测试数据与模型预训练语料零重叠。
常用场景
经典使用场景
TableEval数据集在自然语言处理领域,特别是表格问答(TableQA)任务中具有广泛的应用场景。该数据集涵盖了政府、金融、学术和行业报告等多个领域的复杂表格结构,包括简洁表、层次表和嵌套表等。研究人员可以利用TableEval评估大型语言模型(LLMs)在真实场景下的表格理解和推理能力,尤其是在处理多语言(简体中文、繁体中文和英文)和多结构表格时的表现。
解决学术问题
TableEval解决了现有TableQA基准测试中的多个关键问题。首先,它突破了传统基准测试仅关注简单平面表的局限,引入了复杂表格结构,如层次表和嵌套表。其次,通过使用2024年发布的最新数据,有效避免了数据泄露问题,确保了评估结果的可靠性。此外,该数据集的多语言特性填补了跨语言TableQA研究的空白。最重要的是,TableEval提出的SEAT评估框架解决了传统精确匹配和n-gram匹配无法准确评估语义一致性的难题,为TableQA研究提供了更科学的评估标准。
衍生相关工作
TableEval的推出催生了一系列相关研究工作。在模型架构方面,促进了针对复杂表格理解的特化模型设计,如DeepSeek-R1等开源模型在该基准上的优化。在评估方法上,启发了基于语义对齐的新型评估指标研究。同时,该数据集也被用于探索表格与文本的多模态理解,如Zheng等人提出的多模态表格理解方法。此外,TableEval还推动了针对特定领域(如金融报表)的表格预训练技术发展,为TableQA领域的进步提供了重要参考。
以上内容由遇见数据集搜集并总结生成



