five

RAT-Bench

收藏
arXiv2026-02-13 更新2026-02-17 收录
下载链接:
https://huggingface.co/datasets/imperial-cpg/rat-bench
下载链接
链接失效反馈
官方服务:
资源简介:
RAT-Bench是由伦敦帝国理工学院开发的一个综合性文本匿名化评估基准数据集。该数据集基于美国人口普查局的1%公共使用微数据样本(PUMS)生成,包含合成文本,涵盖不同领域、语言和难度级别的直接与间接标识符。数据集通过模拟真实人口统计分布,支持对匿名化工具的重识别风险进行量化评估,尤其关注法律合规性要求的k-匿名性(k=5)。其应用领域聚焦于隐私保护技术研发,旨在解决现有匿名化工具对非标准表述标识符识别不足、跨语言泛化能力弱等问题,为AI模型训练数据脱敏提供标准化测试环境。
提供机构:
伦敦帝国理工学院
创建时间:
2026-02-13
搜集汇总
数据集介绍
构建方式
在文本匿名化领域,现有评估基准往往依赖有限的人工标注属性或脱离真实人口统计的合成数据,难以准确衡量再识别风险。RAT-Bench通过基于真实世界人口统计数据的合成文本生成,构建了一个全面、可扩展的多语言基准。该数据集以美国社区调查的公开微数据样本为基础,从中采样间接标识符(如出生日期、种族),并生成与之一致的直接标识符(如姓名、地址)。随后,利用大语言模型生成包含这些标识符的文本,并系统控制标识符的呈现难度(标准形式、非标准形式、隐含形式)和文本场景(医疗记录、聊天机器人对话、会议记录),从而创建出既贴近现实又便于量化风险评估的基准条目。
特点
RAT-Bench的核心特点在于其以再识别风险为驱动的评估框架,超越了传统基于召回率的评估方法。该数据集紧密对接法律隐私标准,通过模拟攻击者从匿名化文本中推断属性的过程,直接计算个体在美国人口中被重新识别的概率。其构建根植于真实人口统计分布,确保了标识符组合的风险评估具有现实意义。此外,数据集涵盖了多样化的标识符类型(直接与间接)、三种呈现难度以及多语言场景(英语、西班牙语、简体中文),能够全面压力测试不同匿名化工具在复杂、真实环境下的性能与泛化能力。
使用方法
使用RAT-Bench评估文本匿名化工具时,首先将基准中的原始文本输入待测工具,得到匿名化后的文本。随后,实例化一个基于大语言模型的最先进攻击者,尝试从匿名化文本中推断出预设的直接与间接标识符。评估关键依据再识别风险:若攻击者正确推断出至少一个直接标识符,则判定再识别成功(风险为1);否则,根据正确推断的间接标识符集合,利用人口统计框架计算该个体在整体人群中被唯一识别的概率。最终,通过比较不同工具在降低此风险上的效果,并结合文本完整性指标(如BLEU分数)和计算成本,为用户选择工具和开发者改进算法提供实证依据。
背景与挑战
背景概述
RAT-Bench是由伦敦帝国理工学院的研究团队于2026年提出的综合性文本匿名化基准数据集。该数据集旨在应对大型语言模型广泛使用含个人信息的文本进行训练、微调或查询时引发的隐私风险。传统匿名化工具通常仅评估对特定标识符(如姓名)的移除效果,但其防止重新识别的实际效能尚不明确。RAT-Bench通过基于美国人口统计数据的合成文本生成,涵盖了跨领域、语言和难度级别的直接与间接标识符,首次以重新识别风险为核心系统评估了基于命名实体识别和大语言模型的匿名化工具。该数据集的建立为隐私保护技术提供了符合法律标准的量化评估框架,推动了文本匿名化研究从简单的标识符删除向风险控制范式的转变。
当前挑战
RAT-Bench所应对的核心领域挑战在于如何准确评估文本匿名化工具防止个体重新识别的能力,这超越了传统上仅关注直接标识符移除的局限。具体挑战包括:第一,匿名化工具需有效处理非标准形式的直接标识符(如分段书写的电话号码)和通过上下文隐含表达的间接标识符(如通过职业推断教育水平),现有工具在此类场景下性能显著下降。第二,构建过程中需生成符合真实人口统计分布的合成文本,以合理量化重新识别风险,这要求整合多源人口数据并保证标识符间的逻辑一致性。第三,基准需支持多语言评估,以检验工具在英语以外的语言上的泛化能力,而多数现有工具对此缺乏充分适配。
常用场景
经典使用场景
在隐私保护与自然语言处理交叉领域,RAT-Bench作为首个基于重识别风险的文本匿名化基准,其经典使用场景在于系统评估各类匿名化工具的实际效能。该基准通过合成文本模拟真实世界人口统计分布,涵盖多种直接与间接标识符,并设置不同难度等级,为研究人员提供了标准化测试环境。典型应用包括对比基于命名实体识别、大语言模型及扰动方法的匿名化工具,衡量其在防止重识别攻击方面的表现,从而推动隐私增强技术的发展。
解决学术问题
RAT-Bench有效解决了文本匿名化研究中长期存在的评估难题。传统方法依赖召回率等指标,未能充分考虑不同标识符对重识别风险的差异化影响,亦无法准确反映真实人口统计分布下的隐私泄露概率。该基准通过引入基于美国人口统计数据的合成文本,并结合重识别风险计算框架,使得评估结果与法律标准(如GDPR和CCPA)中对“匿名化”的定义相一致。其贡献在于提供了首个能够量化残余重识别风险的评估体系,为隐私保护技术的合规性与有效性设定了科学依据。
衍生相关工作
RAT-Bench的推出催生了一系列围绕文本匿名化的创新研究。基于其评估框架,后续工作如迭代式匿名化方法(Staab et al., 2025)得以验证其在高风险场景下的有效性;同时,基准揭示的现有工具缺陷(如对非标准标识符和间接标识符处理不足)激发了针对鲁棒匿名化模型的新探索。此外,该基准支持的多语言评估促进了跨语言隐私保护技术的研究,为开发通用性强、适应性广的匿名化解决方案奠定了实验基础,推动了隐私计算领域的持续进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作