Table Distortion Dataset

Name: Table Distortion Dataset
Creator: 微软公司
Published: 2026-01-08 23:10:32
License: 暂无描述

arXiv2026-01-08 更新2026-01-10 收录

下载链接：

https://github.com/AIML-Researcher/table-distortion

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由微软研究院专家团队构建，旨在评估大语言模型对表格数据语义和结构扭曲的鲁棒性。数据集包含50个经过专家验证的（表格，查询，答案）三元组，平均每表19.1行，包含22种语义扭曲和28种结构扭曲变体。数据来源包括WikiTQ的改编文件和人工合成表格，主要应用于表格问答任务，用于研究模型在扭曲表格下的错误检测与校正能力，揭示当前模型在理解非规范表格数据时的系统性缺陷。

This dataset was developed by a team of experts at Microsoft Research, with the goal of evaluating the robustness of Large Language Models (LLMs) against semantic and structural distortions in tabular data. It contains 50 expert-validated (table, query, answer) triples, with an average of 19.1 rows per table, and encompasses 22 semantic distortion variants and 28 structural distortion variants. Its data sources include adapted files from WikiTQ and artificially synthesized tables. This dataset is primarily applied to table question answering tasks, to study the error detection and correction capabilities of models under distorted tabular scenarios, and to reveal the systematic flaws of current models when comprehending non-standard tabular data.

提供机构：

微软公司

创建时间：

2026-01-08

搜集汇总

数据集介绍

构建方式

在表格问答领域，真实场景中的表格常因格式转换或数据采集而存在语义与结构上的扭曲。为系统评估大语言模型对此类扭曲的鲁棒性，Table Distortion Dataset 由领域专家精心构建而成。该数据集以50个（表格、查询、答案）三元组为核心，表格平均包含19.1行，源自WikiTQ的改编或人工合成，确保查询简洁且表格紧凑。专家随后依据语义与结构扭曲原则，将每个规范表格转化为22个语义扭曲与28个结构扭曲的变体，每种扭曲均设计为人类可轻松识别并修复，同时保持原始答案不变，从而在受控误差下精准衡量模型性能。

特点

该数据集的核心特点在于其专注于表格的语义与结构扭曲，模拟了现实世界中常见的表格异常。语义扭曲通过打破逻辑或数值不变性（如交换血压列的含义）引入错误，考验模型利用世界知识进行验证的能力；结构扭曲则通过垂直或水平位移改变表格的空间对齐，挑战模型对全局布局的推理。所有扭曲变体均保持原始答案的有效性，使得性能下降可直接归因于扭曲处理能力的缺失。数据集规模虽小，但扭曲类型全面且设计严谨，为揭示大语言模型在扭曲表格理解上的系统性缺陷提供了高信噪比的评估基准。

使用方法

该数据集主要用于评估大语言模型在表格问答任务中对扭曲表格的鲁棒性。研究者在实验中通常采用三种输入模态：直接上传文件、提供Markdown文本表示或呈现PNG图像，以考察模态对扭曲检测的影响。评估时，模型在有无代码执行沙箱的环境下运行，并比较使用扭曲感知与无感知系统提示的性能差异。核心指标包括在扭曲表格上的准确率以及相对于规范表格的鲁棒性百分比。通过分析模型在语义与结构扭曲上的表现差异，特别是对垂直位移等困难案例的处理，该数据集能够深入揭示模型表格理解能力的本质局限，并推动未来模型自主检测与修复扭曲表格的研究。

背景与挑战

背景概述

在自然语言处理领域，表格问答任务要求模型能够理解并推理结构化表格数据以回答用户查询。随着大语言模型在规范表格表示上展现出卓越性能，实际应用中的表格往往因数据采集、格式转换或网络爬取等过程而存在各种语义与结构上的扭曲。为系统探究大语言模型在此类扭曲表格上的鲁棒性，微软研究院的研究团队于2026年创建了Table Distortion Dataset。该数据集由专家精心构建，包含50个表格问答样本，每个规范表格均被转化为多种语义与结构扭曲变体，旨在评估模型在无需显式提示下自主检测与修正表格错误的能力。这一研究揭示了当前模型在处理扭曲表格时存在的系统性缺陷，为提升模型在真实嘈杂环境中的表格理解能力提供了关键实证基础。

当前挑战

Table Distortion Dataset所针对的核心挑战在于评估大语言模型对扭曲表格的鲁棒性，具体涉及表格问答任务中模型自主错误检测与修正的能力。在领域问题层面，该数据集旨在解决模型面对语义扭曲（如标签值错位、单位不一致）与结构扭曲（如行列位移、单元格分裂）时，性能显著下降的难题。构建过程中的挑战则集中于设计既保持原始答案有效性又引入可控错误的扭曲变体，确保扭曲在人类可轻松识别修复的范围内，同时避免引入无关任务复杂性。此外，数据集的规模较小且集中于单步扭曲，这虽有助于隔离特定失败模式，但也限制了其对现实世界中多错误交互、大规模嘈杂表格的泛化能力。

常用场景

经典使用场景

在表格问答领域，Table Distortion Dataset 被广泛应用于评估大型语言模型对表格数据中语义和结构扭曲的鲁棒性。该数据集通过精心设计的扭曲变体，模拟现实世界中因格式转换或数据采集错误导致的表格异常，为研究者提供了系统测试模型在非规范表格上推理能力的基准环境。其经典使用场景包括在受控条件下比较不同模型家族、输入模态及执行设置下的性能表现，尤其关注模型在无需显式提示时能否自主检测并修复扭曲表格的能力。

衍生相关工作

该数据集衍生了一系列关注表格鲁棒性的经典研究工作。例如，RobuT 通过对抗性扰动评估模型稳定性，而其他研究则探讨了不同表格表示对问答性能的影响。Table Distortion Dataset 进一步将焦点扩展至表格本身存在语义或结构错误的场景，激励后续研究开发更先进的扭曲感知机制。这些工作共同推动了表格理解领域向更真实、更健壮的方向发展，为模型在噪声环境中的自主决策奠定了理论基础。

数据集最近研究