Sensitive data detection dataset
收藏github2023-12-02 更新2024-05-31 收录
下载链接:
https://github.com/SimoDR/sensitive-data-detection
下载链接
链接失效反馈资源简介:
本数据集用于敏感数据检测,由OpenLLaMa模型生成,涵盖了健康、政治、性取向、司法、宗教和种族等多个敏感数据类别。每个数据条目包含文本内容及其敏感标签,标签详细说明了敏感信息的类别和位置。
This dataset is designed for sensitive data detection, generated by the OpenLLaMa model, and encompasses multiple sensitive data categories including health, politics, sexual orientation, judiciary, religion, and race. Each data entry contains textual content along with its sensitive labels, which detail the category and location of the sensitive information.
创建时间:
2023-11-24
原始信息汇总
数据集概述
数据集名称
Sensitive data detection
数据集来源
该数据集用于支持论文"Exploiting Large Language Models to Train Automatic Detectors of Sensitive Data",目前提交至IRCDL 2024 Conference进行评审。
数据集生成模型
数据集由OpenLLaMa模型生成,遵循Apache 2.0许可证自由分发。
数据集格式
数据集结构为一系列条目,每个条目包含一对(text, label),其中:
text:生成文档的内容。label:标签列表,每个标签指定敏感数据的类别,值为敏感数据段的起始和结束字符索引。
数据集标签类别
- [DATI_SALUTE]:健康相关信息。
- [DATI_POLITICA]:政治相关信息。
- [DATI_SESSUALITA]:性相关信息。
- [DATI_GIUDIZIARI]:司法相关信息。
- [DATI_RELIGIONE]:宗教相关信息。
- [DATI_ETNIA]:种族相关信息。
数据集文档类型与计数
| Data category | Doc title | Doc count | Avg char count |
|---|---|---|---|
| Mix (Sensitive) | 233 | 1072.91 | |
| Newspaper article | 148 | 1004.84 | |
| Curriculum Vitae | 109 | 1241.66 | |
| TOT | 490 | ||
| Health & Sexuality | Psychiatric report | 83 | 1638.61 |
| Medical prescription | 71 | 1372.89 | |
| Medical records | 62 | 1476.06 | |
| Psychological evaluation | 53 | 1899.11 | |
| Certification of invalidity | 20 | 1419.95 | |
| Biopsy results | 21 | 1123.29 | |
| Eye test report | 15 | 1455.33 | |
| Surgery report | 15 | 1475.53 | |
| Blood tests | 10 | 1437.5 | |
| Certificate of civil union | 20 | 1116.95 | |
| TOT | 370 | ||
| Judicial | Denunciation report | 26 | 1225.58 |
| Police identikit | 25 | 1097.16 | |
| Criminal record | 24 | 1305.08 | |
| Arrest report | 19 | 1234.16 | |
| Notice of investigation | 24 | 1806.88 | |
| Criminal judgement | 22 | 1403.82 | |
| Notice of conclusion of preliminary investigations | 19 | 1610.89 | |
| Certificate of pending charges | 14 | 1268.14 | |
| Precautionary measures | 18 | 1281.28 | |
| TOT | 191 | ||
| Politic | Political endorsement | 38 | 735.39 |
| Union card | 30 | 1066.77 | |
| Party card | 28 | 1067.14 | |
| TOT | 96 | ||
| Philosophical | Philosophical endorsement | 68 | 1028.49 |
| Baptismal certificate | 32 | 783.47 | |
| Certificate of participation to religious group | 32 | 682.59 | |
| TOT | 132 | ||
| Ethnic | DNA analysis report | 37 | 1804.86 |
| Ancestry analysis report | 31 | 1824.16 | |
| Birth certificate | 36 | 435.61 | |
| Genealogical tree report | 30 | 1444.67 | |
| TOT | 134 | ||
| Other (Non sensitive) | Scientific paper | 106 | 3038.55 |
| Advertising flyer for event | 92 | 992.42 | |
| Scientific publications report | 88 | 2576.69 | |
| Marriage certificate | 66 | 829.39 | |
| Advertising flyer | 18 | 1035.83 | |
| Company invoice | 17 | 1203.71 | |
| Services and products catalogue | 15 | 2122.2 | |
| Financial report by corporate | 14 | 2215.5 | |
| Commercial report | 13 | 2128.92 | |
| City travel guide | 12 | 1598.75 | |
| Tax declaration | 12 | 1476.58 | |
| Cooking recipe | 11 | 1168.64 | |
| Corporate memo | 9 | 1277.67 | |
| Company balance sheet | 8 | 1443.12 | |
| Book review | 7 | 767 | |
| Wikipedia extract | 150 | 2430.3 | |
| TOT | 638 |
数据集参考
- [1] Geng, Xinyang and Liu, Hao, OpenLLaMA: An Open Reproduction of LLaMA, https://github.com/openlm-research/open_llama
AI搜集汇总
数据集介绍

构建方式
该敏感数据检测数据集的构建基于OpenLLaMa模型,这一模型在生成文档内容方面展现了卓越的能力。数据集的生成过程严格遵循Apache 2.0许可,旨在促进该领域的进一步研究。每个数据条目均以(text, label)的形式呈现,其中text包含生成的文档内容,而label则详细标注了敏感数据的类别及其在文本中的具体位置。
特点
该数据集的显著特点在于其多样的敏感数据类别和丰富的文档类型。涵盖了健康、政治、性取向、司法、宗教和种族等多个敏感领域,确保了数据集的全面性和代表性。此外,数据集中的文档类型多样,包括电子邮件、报纸文章、简历、医疗记录等,每种类型均具有不同的字符平均长度,从而提供了多样的文本分析场景。
使用方法
使用该数据集时,研究者可以利用其丰富的敏感数据标注进行模型训练和评估。通过分析(text, label)对,可以开发和优化用于敏感数据检测的算法。此外,数据集的多样性使得研究者能够在不同类型的文档中测试其模型的泛化能力。为了确保数据集的有效使用,建议研究者在训练和测试过程中严格遵循Apache 2.0许可,并参考相关文献以获取更多技术细节。
背景与挑战
背景概述
在信息安全与隐私保护领域,敏感数据检测已成为一项至关重要的研究课题。Sensitive data detection dataset由OpenLLaMa模型生成,旨在支持自动检测敏感数据的研究。该数据集由主要研究人员在IRCDL 2024会议上提交的论文中首次描述,其核心研究问题是如何利用大型语言模型来训练高效的敏感数据检测器。数据集涵盖了多种敏感数据类别,包括健康、政治、性取向、司法、宗教和种族信息,旨在为相关领域的研究提供丰富的数据支持。
当前挑战
构建Sensitive data detection dataset过程中面临的主要挑战包括:首先,如何确保生成的文本数据在不同敏感类别中的代表性和多样性,以避免偏差和过拟合问题。其次,标记敏感数据的具体位置和类别需要高度专业化的知识,这增加了数据标注的复杂性和成本。此外,数据集的规模和多样性要求高效的算法和计算资源来处理和分析。最后,如何在保护隐私的前提下,公开和分发这些敏感数据,以促进进一步的研究和应用,也是一个重要的伦理和技术挑战。
常用场景
经典使用场景
在敏感数据检测领域,Sensitive data detection dataset 被广泛用于训练和评估自动检测模型。该数据集通过OpenLLaMa模型生成,涵盖了多种敏感信息类别,如健康、政治、性取向、司法、宗教和种族等。其经典使用场景包括但不限于:构建和优化敏感数据检测算法,验证模型在不同文档类型中的泛化能力,以及评估模型在实际应用中的准确性和效率。
实际应用
在实际应用中,Sensitive data detection dataset 被用于开发和部署敏感数据检测系统。这些系统广泛应用于医疗、法律、金融等领域,以确保敏感信息的合规性和安全性。例如,医疗机构可以使用该数据集训练的模型来检测和保护患者的健康信息,法律机构则可以利用其来确保司法记录的保密性。
衍生相关工作
基于Sensitive data detection dataset,研究者们开展了一系列相关工作。其中包括开发更高效的敏感数据检测算法、探索多模态数据融合技术、以及研究如何在保护隐私的前提下进行数据共享。这些工作不仅丰富了敏感数据检测的理论体系,也为实际应用提供了更多技术支持。
以上内容由AI搜集并总结生成



