SPeDaC

Name: SPeDaC
Creator: 博洛尼亚大学
Published: 2022-12-21 19:37:14
License: 暂无描述

arXiv2022-12-21 更新2024-06-21 收录

下载链接：

https://github.com/Gaia-G/SPeDaC-corpora

下载链接

链接失效反馈

官方服务：

资源简介：

SPeDaC是由博洛尼亚大学的研究团队创建的一个英语语言数据集，旨在识别和分类敏感个人信息。该数据集包含10,675条句子，用于评估计算模型在三个不同复杂度的敏感个人信息检测子任务上的表现。SPeDaC通过提供一个共享的基准，帮助解决在个人数据领域缺乏可用标记资源的问题，并支持对敏感个人数据的自动识别和分类。数据集的应用领域包括隐私保护和数据泄露预防，旨在帮助企业和组织避免数据泄露，保护个人隐私。

SPeDaC is an English-language dataset developed by a research team at the University of Bologna, targeting the identification and classification of sensitive personal information. It consists of 10,675 sentences, designed to assess the performance of computational models across three subtasks of sensitive personal information detection with distinct complexity levels. By providing a shared benchmark, SPeDaC helps address the shortage of available annotated resources in the personal data domain, while supporting the automatic identification and classification of sensitive personal data. The application areas of this dataset include privacy protection and data leak prevention, aiming to assist enterprises and organizations in avoiding data breaches and safeguarding personal privacy.

提供机构：

博洛尼亚大学

创建时间：

2022-08-12

搜集汇总

数据集介绍

构建方式

SPeDaC 数据集的构建旨在填补个人数据分类领域缺乏标准基准和标记资源的空白。该数据集基于英语文本，通过手动标注的方式，从 TenTen 语料库中提取了 10,675 个句子用于 SPeDaC1，5,133 个句子用于 SPeDaC2，以及 61 个细粒度个人数据类别（PDCs）的句子用于 SPeDaC3。标注过程遵循 DPV（数据隐私词汇表）的分类体系，将句子分为敏感和非敏感，并进一步细分为 5 个宏观类别，最终细分为 61 个 PDCs。为了确保标注质量，邀请了语言学家对样本进行标注，并通过 Krippendorff’s alpha 系数评估了标注一致性。

特点

SPeDaC 数据集的主要特点是它为敏感个人数据分类任务提供了一个标准基准和可重用的资源。该数据集涵盖了广泛的个人数据类别，包括历史、财务、跟踪、社会、外部和内部信息，以及特殊类别个人数据。SPeDaC1 用于二分类任务，识别句子是否包含敏感信息；SPeDaC2 用于多分类任务，识别句子中的个人数据宏观类别；SPeDaC3 用于细粒度分类任务，识别句子中的具体 PDCs。此外，SPeDaC 还包括了对抗性句子，即包含与敏感句子相同的语言模式但在上下文中不敏感的句子，以增加数据集的挑战性和实用性。

使用方法

使用 SPeDaC 数据集的方法包括训练和评估敏感个人数据分类模型。首先，需要从 GitHub 仓库下载数据集，并签署伦理披露协议。然后，可以使用数据集的三个子集（SPeDaC1、SPeDaC2 和 SPeDaC3）进行不同级别的分类实验。在实验中，可以使用不同的机器学习模型和深度学习模型，例如 k-NN、SVM、LR、RoBERTa 和 DeBERTa。为了提高模型的性能，可以对模型进行参数调整和优化。最后，可以使用准确率等指标评估模型的性能，并与其他模型进行比较。

背景与挑战

背景概述

随着对话系统等应用在处理敏感个人信息方面的快速发展，个人数据保护问题日益凸显。SPeDaC数据集应运而生，旨在为敏感个人信息分类提供一个新的标注资源。该数据集由Gaia Gambarelli、Aldo Gangemi和Rocco Tripodi于2022年12月发布，并由意大利博洛尼亚大学的FICLIT和LILEC部门以及Ellysse srl公司共同创建。SPeDaC数据集的创建填补了敏感信息检测（SID）领域的空白，为研究人员提供了一个共同基准和标注资源，使得与现有方法的比较成为可能。该数据集包含三个子任务，分别对应于不同复杂程度的SID任务，并对现代神经网络方法的有效性进行了验证。

当前挑战

SPeDaC数据集面临的挑战主要包括：1) 在非结构化文本中识别复杂个人信息；2) 敏感信息检测的基准和标注资源的缺乏；3) 敏感信息检测方法的语境敏感性；4) 针对细粒度分类任务，现有模型的性能仍需提升。此外，由于敏感信息的复杂性，标注过程中可能存在歧义，需要进一步提高标注的一致性和准确性。

常用场景

经典使用场景

SPeDaC 数据集主要用于训练敏感个人数据分类器。该数据集包含三个子任务，分别为 SPeDaC1、SPeDaC2 和 SPeDaC3，分别对应于二分类、五分类和六十一分类。其中，SPeDaC1 用于识别句子是否包含敏感信息，SPeDaC2 用于识别句子所属的五个宏观类别，而 SPeDaC3 则用于识别句子所属的六十一个人数据类别。SPeDaC 数据集旨在帮助研究人员和开发者评估计算模型在敏感信息检测方面的性能。

衍生相关工作

SPeDaC 数据集的发布为敏感信息检测领域的研究和应用提供了新的契机。它衍生出了一系列相关的工作，例如基于 Transformer 架构的神经网络模型在敏感信息检测任务中的应用，以及基于 SPeDaC 数据集的隐私保护技术和数据脱敏工具的开发。此外，SPeDaC 数据集还促进了敏感信息检测领域的标准化和规范化，为未来的研究和发展奠定了基础。

数据集最近研究