Tab-MIA

Name: Tab-MIA
Creator: 本-古里安大学软件与信息系统工程系
Published: 2025-07-23 14:56:34
License: 暂无描述

arXiv2025-07-23 更新2025-07-25 收录

下载链接：

https://huggingface.co/datasets/germane/Tab-MIA https://github.com/eyalgerman/Tab-MIA

下载链接

链接失效反馈

官方服务：

资源简介：

Tab-MIA是一个用于评估大型语言模型（LLMs）在表格数据上的成员推断攻击（MIA）的基准数据集。该数据集由五组数据集合组成，每组数据都以六种不同的编码格式表示。Tab-MIA旨在帮助研究人员系统地评估不同编码策略对LLMs在表格数据上隐私风险的影响，并为开发保护表格数据隐私的方法提供基础。

Tab-MIA is a benchmark dataset for evaluating membership inference attacks (MIA) against large language models (LLMs) on tabular data. This dataset comprises five distinct datasets, each represented in six different encoding formats. Tab-MIA aims to assist researchers in systematically assessing the impact of diverse encoding strategies on the privacy risks of LLMs when processing tabular data, and provide a foundational resource for developing methods to safeguard tabular data privacy.

提供机构：

本-古里安大学软件与信息系统工程系

创建时间：

2025-07-23

搜集汇总

数据集介绍

构建方式

Tab-MIA数据集的构建基于五个公开可用的表格数据集，包括WikiTableQuestions、WikiSQL、TabFact、Adult（Census Income）和California Housing。这些数据集经过严格的筛选和去重处理，确保每个表格在基准测试中仅出现一次。数据集中的表格被转换为六种不同的文本编码格式，包括JSON、HTML、Markdown、Key-Value Pair、Key-is-Value和Line-Separated，以研究不同编码风格对模型记忆行为的影响。每个编码格式的表格被保存为JSONL文件，以支持可重复的实验。

使用方法

Tab-MIA数据集的使用方法包括对大型语言模型（LLMs）进行微调，并评估其在多种表格编码格式下的成员推理攻击（MIA）脆弱性。研究人员可以使用该数据集来训练和测试模型，分析不同编码格式对模型记忆行为的影响。数据集还支持跨格式泛化实验，研究模型在不同编码格式下的攻击效果。Tab-MIA的使用不仅限于隐私风险评估，还可用于开发保护隐私的训练方法，以减少模型对敏感数据的记忆。数据集和相关的训练、评估脚本已公开发布，以支持透明和可重复的研究。

背景与挑战

背景概述

Tab-MIA是由以色列本·古里安大学软件与信息系统工程系的Eyal German等研究人员于2025年提出的基准数据集，旨在评估大型语言模型（LLMs）在处理表格数据时的成员推理攻击（Membership Inference Attacks, MIAs）风险。随着LLMs在结构化数据（如电子健康记录、财务表格等）上的应用日益广泛，这些数据中可能包含的个人可识别信息（PII）引发了严重的隐私担忧。Tab-MIA通过整合五个不同的数据集合，并将每个表格以六种编码格式（如JSON、HTML、Markdown等）表示，为研究社区提供了一个系统评估表格数据隐私风险的平台。该数据集的推出填补了现有MIA研究主要集中于非结构化文本数据的空白，对推动隐私保护技术在结构化数据领域的应用具有重要意义。

当前挑战

Tab-MIA面临的挑战主要体现在两个方面：领域问题的复杂性和数据构建的技术难度。在领域问题方面，表格数据的结构化特性（如列级语义、异构数据类型和独特的值分布）使得传统的基于文本的MIA方法难以直接适用，需要开发新的攻击和防御策略。在数据构建过程中，挑战包括如何有效表示不同编码格式的表格数据以保持其结构信息，以及如何确保数据集的多样性和代表性以覆盖实际应用中的各种场景。此外，评估不同编码格式对模型记忆行为的影响，以及在不同训练周期下模型的脆弱性，也是该数据集需要解决的关键技术难题。

常用场景

经典使用场景

Tab-MIA数据集在评估大型语言模型（LLMs）对表格数据的成员推理攻击（MIAs）方面具有经典应用场景。通过提供五种数据集合和六种不同的编码格式，该数据集能够系统地评估不同编码策略对模型记忆行为的影响。研究人员可以利用Tab-MIA来测试模型在训练数据泄露方面的脆弱性，尤其是在表格数据这种高度结构化的信息中。

解决学术问题

Tab-MIA解决了在表格数据上评估成员推理攻击的学术研究空白。传统上，MIAs主要针对非结构化文本数据，而Tab-MIA首次提供了针对表格数据的基准测试，填补了这一领域的研究空白。该数据集帮助研究人员理解不同编码格式对模型记忆行为的影响，并为开发隐私保护方法提供了基础。

实际应用

在实际应用中，Tab-MIA可用于评估金融、医疗和公共管理等领域的表格数据隐私风险。例如，医疗机构可以利用该数据集测试电子健康记录在LLMs中的泄露风险，从而采取相应的隐私保护措施。此外，企业也可以通过Tab-MIA评估其内部数据在模型训练中的安全性。

数据集最近研究