CAPID

Name: CAPID
Creator: 滑铁卢大学; Vector Institute
Published: 2026-02-11 02:41:31
License: 暂无描述

arXiv2026-02-11 更新2026-02-12 收录

下载链接：

https://github.com/MariaPonomarenko38/CAPID

下载链接

链接失效反馈

官方服务：

资源简介：

CAPID是由滑铁卢大学和Vector Institute联合开发的合成数据集，专注于上下文相关的个人身份信息（PII）检测。该数据集包含2,307条样本，涵盖15种PII类型（如职业、健康、地理位置等），通过GPT-4.1-mini和GPT-5生成并经过人工验证，确保PII与问答任务的相关性标注准确性。其创新性在于首次量化PII的上下文相关性，支持训练本地小型语言模型（SLM）以实现隐私保护下的敏感信息过滤，应用于问答系统隐私增强领域。

CAPID is a synthetic dataset jointly developed by the University of Waterloo and the Vector Institute, dedicated to context-aware Personally Identifiable Information (PII) detection. The dataset comprises 2,307 samples spanning 15 PII categories, including occupation, health information, geographic location and others. Generated using GPT-4.1-mini and GPT-5, and manually verified, it guarantees the accuracy of relevance annotations that associate PII with question-answering tasks. Its key innovation is the first quantification of the contextual relevance of PII, which enables the training of small local language models (SLMs) for privacy-preserving sensitive information filtering, with applications in the domain of privacy enhancement for question-answering systems.

提供机构：

滑铁卢大学; Vector Institute

创建时间：

2026-02-11

原始信息汇总

CAPID数据集概述

数据集简介

CAPID是一个用于上下文感知的个人可识别信息（PII）检测与相关性评估的数据集和流程。

数据内容

训练数据：data/train.jsonl
测试数据：data/test.jsonl
补充数据：data/reddit.jsonl

数据用途

用于模型训练
用于模型评估

数据处理流程

数据集配套提供用于PII检测和相关性评估的处理流程。

搜集汇总

数据集介绍

构建方式

在隐私保护与问答系统交叉领域，CAPID数据集的构建采用了一种基于大语言模型的合成数据生成流程。该流程首先通过枚举多种个人可识别信息类型组合，生成涵盖广泛主题与子主题的多样化语境基础。随后，利用样本分解策略，为每个样本构造包含核心情境与外围背景的文本，确保其中同时存在与问题相关及无关的PII。问题生成过程经过两步精炼，旨在消除对相关PII的显式提示，从而模拟真实对话中用户提出抽象问题的模式。最后，通过人工验证与修正，确保标注质量，特别是对PII上下文相关性的精确判断，最终形成一个包含2307个高质量样本的数据集。

特点

CAPID数据集的核心特点在于其专注于PII的上下文相关性标注，超越了传统数据集中仅识别PII类型的范畴。该数据集覆盖了包括职业、健康、人口统计、位置等在内的十五种细粒度PII类型，并针对每个PII跨度提供了基于给定问题的二元相关性标签。其数据分布呈现出明显的类型差异性，例如职业与健康类PII的相关性比例相对均衡，而姓名与代码类信息则几乎总是不相关。这种设计使得数据集能够有效支持模型学习在隐私保护与回答效用之间进行权衡，即判断哪些敏感信息对于回答问题至关重要而应保留，哪些可以安全地屏蔽。

使用方法

CAPID数据集主要用于训练和评估本地化的小型语言模型，以执行上下文感知的PII检测任务。具体而言，研究者可以利用该数据集对如Llama系列的模型进行微调，使其能够同时完成三项子任务：从文本中精确识别PII跨度、对识别出的PII进行类型分类、以及评估每个PII相对于用户问题的上下文相关性。经过微调的模型可部署在问答系统的前端，作为隐私过滤层，仅将低相关性或已匿名化的查询发送至外部大型语言模型进行处理。此外，该数据集也可作为基准，用于比较不同PII检测方法在跨度识别、类型分类和相关性预测等方面的性能，并评估不同匿名化策略对下游问答任务答案效用的影响。

背景与挑战

背景概述

在数字时代，用户与问答系统交互时频繁披露个人身份信息，引发显著的隐私关切。CAPID数据集由滑铁卢大学与Vector Institute的研究团队于2026年提出，旨在解决上下文感知的个人身份信息检测问题。该数据集聚焦于在问答场景中，不仅识别PII的实体类型，还需评估其与用户问题的语境相关性，从而在隐私保护与回答质量间实现平衡。其创新性在于通过合成数据生成流程，构建了涵盖多领域、多PII类型的标注资源，推动了本地小型语言模型在隐私敏感任务中的微调与应用，对自然语言处理领域的隐私保护技术发展产生了实质性影响。

当前挑战

CAPID数据集致力于解决上下文感知PII检测的核心挑战，即在问答系统中精准区分与问题相关或无关的敏感信息，避免过度匿名化导致下游任务效用下降。构建过程中的主要挑战包括：首先，现有数据集缺乏对PII语境相关性的标注，难以支持模型训练；其次，合成数据生成需确保PII类型的多样性、语境逻辑的一致性以及问题与PII间隐含关联的自然性；此外，人工验证需处理语境依赖的细微差别，如判断特定PII是否为回答问题时不可或缺的要素，这对标注者的领域知识与一致性提出了较高要求。

常用场景

经典使用场景

在问答系统与对话式人工智能的隐私保护研究中，CAPID数据集为上下文感知的个人可识别信息检测提供了关键训练与评估基准。其最经典的使用场景在于训练本地化的小型语言模型，使其能够在用户查询中精准识别PII实体，并依据问题上下文智能判断信息的关联性。例如，当用户询问‘作为仓库主管，我如何减轻长时间工作后的疲劳？’时，模型需保留‘仓库主管’这一与问题高度相关的职业信息，同时掩蔽无关的家庭住址等细节。该数据集通过合成数据生成流程，覆盖了职业、健康、地理位置、财务状况等十五类PII，并精细标注了每类信息在不同问题情境下的关联性标签，为模型学习‘选择性保留’这一核心能力提供了丰富且结构化的语料支持。

解决学术问题

CAPID数据集主要解决了隐私保护与问答系统效用之间长期存在的平衡难题。传统PII检测方法通常无差别地掩蔽所有敏感信息，忽视了部分信息对问题理解与答案生成的关键作用，导致回答质量下降。该数据集通过引入‘上下文关联性’这一维度，使研究能够探索如何区分‘必要披露’与‘冗余隐私’。它系统地定义了PII类型识别与二元关联性判定的联合任务，为训练模型同时完成实体识别、分类及关联性评估提供了标准化框架。其意义在于推动了隐私计算从粗粒度屏蔽向细粒度、情境化决策的范式转变，为在严格遵循GDPR等法规前提下提升AI助手的实用性与人性化交互奠定了理论基础。

衍生相关工作

CAPID数据集的发布催生并衔接了多个隐私计算与自然语言处理交叉领域的经典研究方向。其工作直接与Ngong等人关于对话智能体上下文隐私保护的研究形成对比与补充，后者侧重于信息重构而非精确的PII跨度检测。数据集构建中采用的LLM驱动合成数据生成方法，与Long等人关于合成数据生成、管理与评估的综述工作相呼应，为高质量隐私敏感数据合成提供了实践范例。同时，它对PII关联性的建模思想，也推动了如Xiao等人探索大语言模型作为上下文隐私保护学习器的相关研究。这些衍生工作共同深化了对‘情境完整性’这一隐私理论在计算层面的实现路径的探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集