TableBench

Hugging Face2024-07-19 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Multilingual-Multimodal-NLP/TableBench

下载链接

链接失效反馈

官方服务：

资源简介：

TableBench 数据集是一个专注于表格问答多维度能力的集合，涵盖了4个主要类别和18个子类别。数据集包括多个字段，如唯一标识符、问题类型、问题子类型、指令、指令类型、表格、问题、答案和答案格式化器。数据示例展示了如何在验证集中使用这些字段，并说明了如何根据特定的格式要求生成答案。数据集的使用说明提供了如何评估大型语言模型在表格数据上的能力，以及如何根据特定的格式要求进行自定义评估。

The TableBench dataset is a collection dedicated to the multi-dimensional capabilities of table-based question answering, encompassing 4 main categories and 18 subcategories. The dataset comprises multiple fields, including unique identifier, question type, question subtype, instruction, instruction type, table, question, answer, and answer formatter. Dataset examples illustrate how to utilize these fields in the validation set and demonstrate how to generate answers that meet specific formatting requirements. The dataset's usage guidelines provide instructions on evaluating the performance of Large Language Models (LLMs) on tabular data, as well as conducting custom evaluations tailored to specific formatting standards.

创建时间：

2024-07-18

原始信息汇总

数据集卡片 - TableBench

数据集概述

TableBench 是一个数据集，涵盖 4 个主要类别和 18 个子类别，专注于表格问答的多维度能力。

数据字段

ID	字段	描述
id	字符串	唯一标识符
qtype	字符串	问题类型（FactChecking, NumericalReasoning, DataAnalysis, Visualization）
qsubtype	字符串	问题子类型
instruction	字符串	提示LLM的指令
instruction_type	字符串	TableBench中的三种不同指令类型：TCoT(文本思维链)、SCoT(符号思维链)和PoT(思维程序)
table	字符串	表格
question	字符串	问题
answer	字符串	答案
answer_formatter	字符串	答案输出格式的约束

数据示例

一个 validation 示例如下： json { "id": "60670a8d9b1e39dd845fb1639d0d8b86", "qtype": "DataAnalysis", "qsubtype": "StatisticalAnalysis", "instruction": "You are a data analyst proficient in Python ...", "instruction_type": "PoT", "table": "{"columns": ["rank", "circuit", "headquarters", "screens", "sites"], "data": [[1, "regal entertainment group", "knoxville , tn", 7367, 580], [2, "amc entertainment inc", "kansas city , mo", 5894, 483], [3, "cinemark theatres", "plano , tx", 3895, 298], [4, "carmike cinemas , inc", "columbus , ga", 2242, 232], [5, "cineplex entertainment", "toronto , on", 1438, 133], [6, "rave motion pictures", "dallas , tx", 939, 62], [7, "marcus theatres", "milwaukee , wi", 687, 55], [8, "national amusements", "dedham , ma", 450, 34], [9, "empire theatres", "stellarton , ns", 438, 53]]}", "question": "Can you calculate the standard deviation of the number of screens operated by the top 5 movie theater chains?", "answer": "2472.33", "answer_formatter": "The generated Python code should follow the format below, and ensure the first two code lines is exactly the same with the following code block: [Python Code Format] python import pandas as pd df = pd.read_csv(table.csv) ... print(fFinal Answer: {answer})

Ensure the final answer is the last line in python code and can only be in the "print(fFinal Answer: {answer})" form, no other from. Ensure variable "answer" can only be "AnswerName1, AnswerName2..." form, no other form, and "AnswerName" can only be a number or entity name, as short as possible, without any explanation." }

数据使用

如果你想直接评估LLMs在表格数据上的能力，可以使用 TableBench-PoT、TableBench-SCoT 和 TableBench-TCoT 直接评估模型的能力。
如果你希望自定义评估提示方法，请遵循 answer_formatter 中的规范，以减少因自由形式答案不一致导致的评估错误。

搜集汇总

数据集介绍

构建方式

TableBench数据集的构建围绕表格问答的多维度能力展开，涵盖了四大类别和十八个子类别。数据集的构建过程包括从不同领域收集表格数据，并设计多样化的问答任务。每个样本均包含唯一的标识符、问题类型、问题子类型、指令、指令类型、表格、问题、答案以及答案格式约束。通过这种方式，数据集能够全面评估模型在处理复杂表格数据时的表现。

特点

TableBench数据集的特点在于其多样性和复杂性。它不仅涵盖了多种问题类型，如事实核查、数值推理、数据分析和可视化，还引入了三种不同的指令类型：文本思维链（TCoT）、符号思维链（SCoT）和程序思维链（PoT）。这种设计使得数据集能够评估模型在不同思维模式下的表现。此外，数据集对答案格式的严格约束确保了评估的标准化和一致性。

使用方法

TableBench数据集的使用方法灵活多样。用户可以直接使用`TableBench-PoT`、`TableBench-SCoT`和`TableBench-TCoT`来评估模型在表格数据上的能力。若用户希望自定义提示方法进行评估，需严格遵循`answer_formatter`中的规范，以减少因自由形式答案不一致而导致的评估误差。这种设计使得数据集既适用于标准化评估，也支持定制化研究。

背景与挑战

背景概述

TableBench数据集由Xianjie Wu等人于2024年提出，旨在为表格问答（Table Question Answering, TQA）领域提供一个全面且复杂的基准测试工具。该数据集涵盖了四大类别和十八个子类别，重点关注多维度的表格问答能力。通过引入不同的指令类型（如TCoT、SCoT和PoT），TableBench不仅评估模型在表格数据上的推理能力，还推动了大型语言模型（LLMs）在复杂表格任务中的应用。该数据集的发布为相关领域的研究提供了重要的实验基础，并显著提升了表格问答任务的多样性和复杂性。

当前挑战

TableBench数据集在构建和应用过程中面临多重挑战。首先，表格问答任务本身具有高度复杂性，涉及数值推理、数据分析、事实核查和可视化等多种能力，这对模型的综合推理能力提出了极高要求。其次，数据集的构建需要确保表格数据的多样性和复杂性，同时保持问题的真实性和实用性，这对数据收集和标注提出了巨大挑战。此外，为了评估模型在不同指令类型下的表现，数据集设计了多种指令格式（如PoT、SCoT和TCoT），这要求模型具备灵活的任务适应能力。最后，数据集的评估标准需严格遵循答案格式约束，以减少自由形式答案带来的评估误差，这对模型的输出控制能力提出了更高要求。

常用场景

经典使用场景

TableBench数据集在表格问答领域具有广泛的应用，尤其是在评估大型语言模型（LLMs）在处理复杂表格数据时的表现。通过其多维度的分类和子分类，TableBench能够全面测试模型在事实核查、数值推理、数据分析和可视化等方面的能力。其独特的指令类型（如TCoT、SCoT和PoT）为研究者提供了多样化的评估手段，使得模型在不同思维链模式下的表现得以精确衡量。

解决学术问题

TableBench解决了表格问答领域中的多个关键学术问题。首先，它通过提供多样化的任务类型和子类型，帮助研究者深入理解模型在不同情境下的表现差异。其次，其严格的答案格式约束减少了自由形式答案带来的评估误差，确保了评估结果的准确性和一致性。此外，TableBench还为研究者提供了一个标准化的基准，推动了表格问答领域的模型优化和算法创新。

衍生相关工作

TableBench的发布催生了一系列相关研究工作。例如，基于TableBench的评估结果，研究者提出了多种改进模型性能的新方法，如增强的思维链推理技术和基于符号逻辑的表格解析算法。此外，TableBench还为其他表格问答数据集的设计提供了参考，推动了该领域的标准化和规范化发展。这些衍生工作不仅丰富了表格问答领域的研究内容，也为实际应用中的技术突破提供了理论支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集