Sensitive data detection dataset

github2023-12-02 更新2024-05-31 收录

下载链接：

https://github.com/SimoDR/sensitive-data-detection

下载链接

链接失效反馈

资源简介：

本数据集用于敏感数据检测，由OpenLLaMa模型生成，涵盖了健康、政治、性取向、司法、宗教和种族等多个敏感数据类别。每个数据条目包含文本内容及其敏感标签，标签详细说明了敏感信息的类别和位置。

This dataset is designed for sensitive data detection, generated by the OpenLLaMa model, and encompasses multiple sensitive data categories including health, politics, sexual orientation, judiciary, religion, and race. Each data entry contains textual content along with its sensitive labels, which detail the category and location of the sensitive information.

创建时间：

2023-11-24

原始信息汇总

数据集概述

数据集名称

Sensitive data detection

数据集来源

该数据集用于支持论文"Exploiting Large Language Models to Train Automatic Detectors of Sensitive Data"，目前提交至IRCDL 2024 Conference进行评审。

数据集生成模型

数据集由OpenLLaMa模型生成，遵循Apache 2.0许可证自由分发。

数据集格式

数据集结构为一系列条目，每个条目包含一对(text, label)，其中：

text：生成文档的内容。
label：标签列表，每个标签指定敏感数据的类别，值为敏感数据段的起始和结束字符索引。

数据集标签类别

[DATI_SALUTE]：健康相关信息。
[DATI_POLITICA]：政治相关信息。
[DATI_SESSUALITA]：性相关信息。
[DATI_GIUDIZIARI]：司法相关信息。
[DATI_RELIGIONE]：宗教相关信息。
[DATI_ETNIA]：种族相关信息。

数据集文档类型与计数

Data category	Doc title	Doc count	Avg char count
Mix (Sensitive)	Email	233	1072.91
	Newspaper article	148	1004.84
	Curriculum Vitae	109	1241.66
	TOT	490
Health & Sexuality	Psychiatric report	83	1638.61
	Medical prescription	71	1372.89
	Medical records	62	1476.06
	Psychological evaluation	53	1899.11
	Certification of invalidity	20	1419.95
	Biopsy results	21	1123.29
	Eye test report	15	1455.33
	Surgery report	15	1475.53
	Blood tests	10	1437.5
	Certificate of civil union	20	1116.95
	TOT	370
Judicial	Denunciation report	26	1225.58
	Police identikit	25	1097.16
	Criminal record	24	1305.08
	Arrest report	19	1234.16
	Notice of investigation	24	1806.88
	Criminal judgement	22	1403.82
	Notice of conclusion of preliminary investigations	19	1610.89
	Certificate of pending charges	14	1268.14
	Precautionary measures	18	1281.28
	TOT	191
Politic	Political endorsement	38	735.39
	Union card	30	1066.77
	Party card	28	1067.14
	TOT	96
Philosophical	Philosophical endorsement	68	1028.49
	Baptismal certificate	32	783.47
	Certificate of participation to religious group	32	682.59
	TOT	132
Ethnic	DNA analysis report	37	1804.86
	Ancestry analysis report	31	1824.16
	Birth certificate	36	435.61
	Genealogical tree report	30	1444.67
	TOT	134
Other (Non sensitive)	Scientific paper	106	3038.55
	Advertising flyer for event	92	992.42
	Scientific publications report	88	2576.69
	Marriage certificate	66	829.39
	Advertising flyer	18	1035.83
	Company invoice	17	1203.71
	Services and products catalogue	15	2122.2
	Financial report by corporate	14	2215.5
	Commercial report	13	2128.92
	City travel guide	12	1598.75
	Tax declaration	12	1476.58
	Cooking recipe	11	1168.64
	Corporate memo	9	1277.67
	Company balance sheet	8	1443.12
	Book review	7	767
	Wikipedia extract	150	2430.3
	TOT	638

数据集参考

[1] Geng, Xinyang and Liu, Hao, OpenLLaMA: An Open Reproduction of LLaMA, https://github.com/openlm-research/open_llama

AI搜集汇总

数据集介绍

构建方式

该敏感数据检测数据集的构建基于OpenLLaMa模型，这一模型在生成文档内容方面展现了卓越的能力。数据集的生成过程严格遵循Apache 2.0许可，旨在促进该领域的进一步研究。每个数据条目均以(text, label)的形式呈现，其中text包含生成的文档内容，而label则详细标注了敏感数据的类别及其在文本中的具体位置。

特点

该数据集的显著特点在于其多样的敏感数据类别和丰富的文档类型。涵盖了健康、政治、性取向、司法、宗教和种族等多个敏感领域，确保了数据集的全面性和代表性。此外，数据集中的文档类型多样，包括电子邮件、报纸文章、简历、医疗记录等，每种类型均具有不同的字符平均长度，从而提供了多样的文本分析场景。

使用方法

使用该数据集时，研究者可以利用其丰富的敏感数据标注进行模型训练和评估。通过分析(text, label)对，可以开发和优化用于敏感数据检测的算法。此外，数据集的多样性使得研究者能够在不同类型的文档中测试其模型的泛化能力。为了确保数据集的有效使用，建议研究者在训练和测试过程中严格遵循Apache 2.0许可，并参考相关文献以获取更多技术细节。

背景与挑战

背景概述

在信息安全与隐私保护领域，敏感数据检测已成为一项至关重要的研究课题。Sensitive data detection dataset由OpenLLaMa模型生成，旨在支持自动检测敏感数据的研究。该数据集由主要研究人员在IRCDL 2024会议上提交的论文中首次描述，其核心研究问题是如何利用大型语言模型来训练高效的敏感数据检测器。数据集涵盖了多种敏感数据类别，包括健康、政治、性取向、司法、宗教和种族信息，旨在为相关领域的研究提供丰富的数据支持。

当前挑战

构建Sensitive data detection dataset过程中面临的主要挑战包括：首先，如何确保生成的文本数据在不同敏感类别中的代表性和多样性，以避免偏差和过拟合问题。其次，标记敏感数据的具体位置和类别需要高度专业化的知识，这增加了数据标注的复杂性和成本。此外，数据集的规模和多样性要求高效的算法和计算资源来处理和分析。最后，如何在保护隐私的前提下，公开和分发这些敏感数据，以促进进一步的研究和应用，也是一个重要的伦理和技术挑战。

常用场景

经典使用场景

在敏感数据检测领域，Sensitive data detection dataset 被广泛用于训练和评估自动检测模型。该数据集通过OpenLLaMa模型生成，涵盖了多种敏感信息类别，如健康、政治、性取向、司法、宗教和种族等。其经典使用场景包括但不限于：构建和优化敏感数据检测算法，验证模型在不同文档类型中的泛化能力，以及评估模型在实际应用中的准确性和效率。

实际应用

在实际应用中，Sensitive data detection dataset 被用于开发和部署敏感数据检测系统。这些系统广泛应用于医疗、法律、金融等领域，以确保敏感信息的合规性和安全性。例如，医疗机构可以使用该数据集训练的模型来检测和保护患者的健康信息，法律机构则可以利用其来确保司法记录的保密性。

衍生相关工作

基于Sensitive data detection dataset，研究者们开展了一系列相关工作。其中包括开发更高效的敏感数据检测算法、探索多模态数据融合技术、以及研究如何在保护隐私的前提下进行数据共享。这些工作不仅丰富了敏感数据检测的理论体系，也为实际应用提供了更多技术支持。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集