TableEval
收藏TableEval 数据集概述
📌 数据集简介
TableEval 是首个支持简体中文、繁体中文和英文的跨语言表格问答基准测试集,用于评估模型在复杂表格数据上的问答能力。
🌍 数据特点
- 真实领域:涵盖财务披露、学术论文、行政记录和行业报告。
- 多语言支持:简体中文、繁体中文、英文。
- 复杂表格结构:包含层级标题、嵌套单元格和合并布局等多样化结构。
📊 数据规模
- 表格数量:617 个经过仔细检查的 Excel 表格。
- 问答对数量:2,325 个 QA 对。
- 任务分类:
- 6 个主要任务
- 16 个细分子任务
🎯 评估框架 (SEAT)
- 细粒度评估:在子问题级别进行评估。
- 可视化正确性:利用 LLMs 提取最终答案并与参考答案逐一比较。
- 评估指标:使用 F1-score,与人类判断高度一致。
🏅 排行榜表现
- 最佳模型:o1-preview (平均得分 83.43)
- 任务表现:
- 信息检索:最高 91.20 (deepseek-chat)
- 数值分析:最高 91.06 (claude-3-5-sonnet-20241022)
- 推理:最高 87.91 (deepseek-r1)
📂 文件结构
TableEval-main/ ├── assets/ # 静态资源 ├── config/ # 配置文件 ├── data/ # 数据集 │ ├── tables/ # Excel表格 │ ├── TableEval-meta.jsonl # 表格元数据 │ └── TableEval-test.jsonl # 测试数据集 ├── outputs/ # 输出目录 ├── openai_client.py # API客户端 ├── requirements.txt # 依赖项 ├── run_evaluation.py # 评估脚本 └── run_prediction.py # 预测生成脚本
📜 引用信息
bibtex @misc{zhu2025tableevalrealworldbenchmarkcomplex, title={TableEval: A Real-World Benchmark for Complex, Multilingual, and Multi-Structured Table Question Answering}, author={Junnan Zhu and Jingyi Wang and Bohan Yu and Xiaoyu Wu and Junbo Li and Lei Wang and Nan Xu}, year={2025}, eprint={2506.03949}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.03949}, }




