Multilingual-Multimodal-NLP/TableBench

Name: Multilingual-Multimodal-NLP/TableBench
Creator: Multilingual-Multimodal-NLP
Published: 2025-04-18 19:16:49
License: 暂无描述

Hugging Face2025-04-18 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/Multilingual-Multimodal-NLP/TableBench

下载链接

链接失效反馈

官方服务：

资源简介：

TableBench是一个专注于表格问答多维能力的数据集，涵盖了4个主要类别和18个子类别。数据集包含唯一标识符、问题类型、问题子类型、指令、指令类型、表格、问题、答案和答案格式化器等字段。数据示例展示了如何使用Python代码生成答案，并提供了直接评估LLMs在表格数据上的能力的方法。

TableBench is a dataset that covers 4 major categories and 18 subcategories, focusing on the multi-dimensional capabilities of table question answering. The dataset includes fields such as unique identifier, question type, question subtype, instruction, instruction type, table, question, answer, and answer formatter. The data example demonstrates how these fields are used in the validation set. The dataset supports direct evaluation of LLMs capabilities on tabular data and provides detailed answer formatting requirements to reduce evaluation errors.

提供机构：

Multilingual-Multimodal-NLP

原始信息汇总

数据集概述

数据集总结

TableBench 是一个涵盖 4 个主要类别和 18 个子类别的数据集，专注于表格问答的多维度能力。

数据字段

ID	类型	描述
id	string	唯一标识符
qtype	string	问题类型（FactChecking, NumericalReasoning, DataAnalysis, Visualization）
qsubtype	string	问题子类型
instruction	string	提示 LLM 的指令
instruction_type	string	TableBench 中的三种不同指令类型：TCoT(Textual Chain of Thought), SCoT(Symbolic Chain of Thought) 和 PoT(Program of Thought)
table	string	表格
question	string	问题
answer	string	答案
answer_formatter	string	答案输出格式的约束

数据示例

一个 validation 的示例如下：

json { "id": "60670a8d9b1e39dd845fb1639d0d8b86", "qtype": "DataAnalysis", "qsubtype": "StatisticalAnalysis", "instruction": "You are a data analyst proficient in Python ...", "instruction_type": "PoT", "table": "{"columns": ["rank", "circuit", "headquarters", "screens", "sites"], "data": [[1, "regal entertainment group", "knoxville , tn", 7367, 580], [2, "amc entertainment inc", "kansas city , mo", 5894, 483], [3, "cinemark theatres", "plano , tx", 3895, 298], [4, "carmike cinemas , inc", "columbus , ga", 2242, 232], [5, "cineplex entertainment", "toronto , on", 1438, 133], [6, "rave motion pictures", "dallas , tx", 939, 62], [7, "marcus theatres", "milwaukee , wi", 687, 55], [8, "national amusements", "dedham , ma", 450, 34], [9, "empire theatres", "stellarton , ns", 438, 53]]}", "question": "Can you calculate the standard deviation of the number of screens operated by the top 5 movie theater chains?", "answer": "2472.33", "answer_formatter": "The generated Python code should follow the format below, and ensure the first two code lines is exactly the same with the following code block: [Python Code Format] python import pandas as pd df = pd.read_csv(table.csv) ... print(fFinal Answer: {{answer}})

Ensure the final answer is the last line in python code and can only be in the "print(fFinal Answer: {{answer}})" form, no other from. Ensure variable "answer" can only be "AnswerName1, AnswerName2..." form, no other form, and "AnswerName" can only be a number or entity name, as short as possible, without any explanation." }

数据使用

如果你想直接评估 LLMs 在表格数据上的能力，可以使用 TableBench-PoT, TableBench-SCoT 和 TableBench-TCoT 来直接评估模型的能力。
如果你希望自定义评估的提示方法，请遵循 answer_formatter 中的规范，以减少由于不一致的自由形式答案导致的评估错误。

搜集汇总

数据集介绍

构建方式

在表格问答领域，构建高质量基准数据集是评估模型推理能力的关键。TableBench的构建过程体现了严谨的学术方法，其核心在于精心设计并筛选了886个测试案例。这些案例覆盖了事实核查、数值推理、数据分析和可视化四大类别下的18个子类，旨在紧密贴合真实场景中问题的推理复杂度。数据集以两种形式呈现：原始的表格问答测试集专注于评估专用系统的推理能力；而预设计的指令测试集则融入了直接提示、文本思维链、符号思维链及程序思维链等多种推理指令，专门用于评估大语言模型在表格任务上的表现。这种双轨设计增强了数据集的灵活性与可扩展性。

使用方法

针对不同的评估目标，TableBench提供了清晰的使用路径。若旨在评估大语言模型在表格数据上的通用能力，研究者可直接使用包含四种指令类型的测试文件，这些文件预设了不同的推理路径，便于进行模型间的直接比较，其结果可参考持续更新的官方排行榜。若需评估针对表格问答任务设计的整体方法或专用系统，则应使用原始的TableBench.jsonl文件，并利用项目提供的开源工具进行评测。对于希望参与公开比较的研究，可遵循排行榜网站的提交指南，将评估结果提交至官方平台，以促进学术交流与技术进步。

背景与挑战

背景概述

在自然语言处理领域，表格问答任务旨在使模型能够理解结构化表格数据并回答相关问题，这对金融分析、商业智能等应用至关重要。TableBench数据集由研究团队于2024年创建，其核心研究问题在于评估大型语言模型在复杂表格问答场景下的推理能力。该数据集涵盖了事实核查、数值推理、数据分析和可视化四大类别，共包含886个精心设计的测试案例，显著推动了表格问答技术向更高层次推理复杂性的发展。

当前挑战

TableBench所解决的领域挑战在于，现有表格问答系统往往难以处理需要多步骤推理、数值计算或跨行列关联的复杂问题。在构建过程中，数据集的挑战体现在如何精确界定问题的推理复杂度，并确保测试案例覆盖现实场景中的多样性。同时，设计多种指令格式以适配不同模型的评估需求，也对数据标注的一致性和评估指标的严谨性提出了较高要求。

常用场景

经典使用场景

在表格问答领域，TableBench作为一项综合性基准测试，其经典使用场景聚焦于评估大型语言模型在复杂表格数据上的推理能力。该数据集通过涵盖事实核查、数值推理、数据分析和可视化四大类别，共计18种子类型的886个测试案例，系统性地模拟了真实世界中对结构化表格进行深度查询与分析的复杂场景。研究者通常利用其原始测试集或预置指令集，对模型在多层次、多步骤的表格问题解答任务中的性能进行严谨评测。

解决学术问题

TableBench的构建旨在解决表格问答研究中长期存在的挑战，即如何系统评估模型在复杂推理场景下的真实能力。传统基准往往侧重于简单的事实检索，而该数据集通过引入多类别、高复杂度的提问，有效填补了在数值计算、统计分析乃至图表生成等高级认知任务上的评估空白。其意义在于为学术界提供了一个标准化、细粒度的评测框架，推动了表格理解研究从浅层信息提取向深度语义推理的范式转变，对衡量和提升模型的复杂逻辑处理能力产生了深远影响。

实际应用

在实际应用层面，TableBench所针对的能力与商业智能、自动化报告生成以及交互式数据分析等场景高度契合。例如，在金融分析或市场研究领域，系统需要从海量表格中提取关键指标、进行趋势对比或生成可视化图表以辅助决策。该数据集能够有效检验相关模型是否具备处理此类现实业务查询的鲁棒性，为开发更智能、更可靠的企业级数据分析工具提供了关键的评估依据和性能基准。

数据集最近研究