five

PANORAMA

收藏
arXiv2025-05-18 更新2025-05-21 收录
下载链接:
http://arxiv.org/abs/2505.12238v1
下载链接
链接失效反馈
官方服务:
资源简介:
PANORAMA是一个大规模的合成语料库,包含384,789个样本,源自9,674个合成个人资料,旨在模拟网络环境中自然出现的个人身份信息(PII)和敏感数据的分布、多样性和上下文。数据集涵盖了多种内容类型,包括维基风格的文章、社交媒体帖子、论坛讨论、在线评论、评论和市场列表等。数据集和代码公开发布,为隐私风险评估、模型审计和隐私保护的大型语言模型(LLMs)的开发提供了必要的资源。

PANORAMA is a large-scale synthetic corpus comprising 384,789 samples derived from 9,674 synthetic user profiles. It is designed to mimic the distribution, diversity and contextual characteristics of personally identifiable information (PII) and sensitive data that naturally emerge in online environments. The corpus covers diverse content types, including Wikipedia-style articles, social media posts, forum discussions, online reviews, comments, and marketplace listings, among others. The dataset and its accompanying code are publicly released, providing essential resources for privacy risk assessment, model auditing, and the development of large language models (LLMs) for privacy protection.
提供机构:
微软
创建时间:
2025-05-18
搜集汇总
数据集介绍
main_image_url
构建方式
PANORAMA数据集通过多阶段流程构建,首先生成包含人口统计学特征和敏感属性的合成个人档案,随后基于这些档案生成多样化的在线内容。采用约束选择方法确保档案内部一致性,涵盖教育、职业、财务状况等真实世界属性。内容生成阶段结合零样本提示和o3-mini模型,模拟维基百科叙事结构,产生六种内容类型(如社交媒体帖子、论坛讨论等),确保敏感信息自然嵌入语境。通过实体提取过滤器剔除326份存在污染的数据,最终形成包含384,789样本的高质量语料库。
特点
该数据集以9,674个合成档案为基础,覆盖8个地区的多样化人口统计学特征,包含六种在线内容类型,精确模拟真实网络环境中敏感信息的分布模式。其独特之处在于采用档案驱动的上下文感知生成框架,确保敏感属性如医疗记录、财务数据等自然融入不同内容类型。数据分布分析显示,护照号、血型等低频敏感字段的出现频率符合现实网络特征,而电话号码、邮箱等高频PII在不同内容类型中的分布呈现显著差异,例如市场类目较社交媒体包含更多联系方式,这种细粒度差异为研究记忆行为提供了真实场景。
使用方法
研究者可通过继续预训练或微调方式将PANORAMA纳入模型开发流程,系统评估PII记忆风险。数据集支持控制变量实验设计,如通过1x至25x的数据重复率设置研究记忆强度变化。评估采用前缀补全协议,结合ROUGE-L和软匹配率指标,分内容类型量化记忆行为。公开的HuggingFace存储库提供完整档案与内容映射,便于开展跨内容推理研究。该资源特别适用于隐私保护技术(如差分隐私、记忆消除)的基准测试,以及模型审计和风险缓解决策支持。
背景与挑战
背景概述
PANORAMA数据集由微软研究院的Sriram Selvam和Anneswa Ghosh团队于2025年5月提出,旨在解决大型语言模型(LLMs)中敏感信息记忆的隐私风险问题。该数据集包含384,789个样本,基于9,674个合成人物档案,模拟了真实网络环境中个人身份信息(PII)的多样性和分布。通过结合零样本提示和OpenAI o3-mini模型,PANORAMA生成了多种内容类型,如维基式文章、社交媒体帖子、论坛讨论等,每种类型都嵌入了上下文相关的PII信息。这一数据集的发布为隐私风险评估、模型审计及隐私保护LLMs的开发提供了重要资源。
当前挑战
PANORAMA数据集面临的挑战主要包括两方面:领域问题挑战和构建过程挑战。在领域问题方面,LLMs对敏感信息的记忆行为具有高度复杂性,如何准确量化不同内容类型和重复频率下的记忆率是一个关键难题。构建过程中,研究团队需克服合成数据的真实性与多样性平衡问题,包括避免生成内容的模板化倾向、确保PII信息的自然嵌入,以及处理模型幻觉导致的属性不一致。此外,多语言支持的局限性和争议性话题的回避也限制了数据集的应用广度。这些挑战需要通过创新的数据生成框架和严格的验证流程来应对。
常用场景
经典使用场景
PANORAMA数据集在大型语言模型(LLM)隐私风险研究中扮演了关键角色。该数据集通过模拟真实在线环境中个人身份信息(PII)的分布和多样性,为研究者提供了一个安全且伦理合规的实验平台。其多模态内容设计——包括社交媒体帖子、论坛讨论、在线评论等——使得研究者能够全面评估LLM在不同上下文中的敏感信息记忆行为,尤其适用于量化数据重复率对记忆效应的影响。
衍生相关工作
该数据集已催生多项重要研究,包括记忆抑制训练技术(如GoldFish Loss)、隐私风险评估框架(LLM-PBE)的改进等。其多属性档案设计启发了后续工作如PII-Scope 2.0,将分析维度扩展到跨平台身份关联。微软研究院近期基于PANORAMA开发的MemGuard方案,显著提升了模型生成内容中的PII模糊化效果。
数据集最近研究
最新研究方向
随着大语言模型(LLMs)在现实应用中的广泛部署,其记忆敏感信息和个人身份信息(PII)的能力引发了日益严重的隐私风险。PANORAMA数据集的推出填补了这一领域的研究空白,为系统化研究LLMs对PII的记忆行为提供了重要工具。该数据集通过构建基于约束选择的合成人类档案,模拟了真实在线环境中PII的多样性和上下文分布,涵盖了社交媒体帖子、论坛讨论、在线评论等多种内容类型。最新研究聚焦于利用PANORAMA评估不同数据重复率对模型记忆行为的影响,揭示了记忆率随数据重复呈现显著增长的趋势,同时发现记忆风险在不同内容类型间存在明显差异。这些发现为隐私风险评估、模型审计及隐私保护型LLMs的开发提供了关键见解,推动了该领域从理论探讨向可量化、可复现研究的转变。
相关研究论文
  • 1
    PANORAMA: A synthetic PII-laced dataset for studying sensitive data memorization in LLMs微软 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作