gretel-pii-masking-en-v1
收藏Hugging Face2024-10-25 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/gretelai/gretel-pii-masking-en-v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个合成生成的文档集合,包含个人身份信息(PII)和受保护的健康信息(PHI)实体,涵盖多个领域。数据集由Gretel Navigator使用mistral-nemo-2407作为后端模型生成,专门设计用于微调Gliner模型。数据集包含来自多个领域和文档类型的PII/PHI实体的文档段落,非常适合命名实体识别(NER)、文本分类和领域特定文档分析等任务。数据集分为训练集(50k记录)、验证集(5k)和测试集(5k),并分布在多个领域和实体类型中。
This dataset is a synthetically generated document collection containing Personally Identifiable Information (PII) and Protected Health Information (PHI) entities, spanning multiple domains. Generated by Gretel Navigator using mistral-nemo-2407 as the backend model, this dataset is specifically designed for fine-tuning the Gliner model. It includes document passages with PII/PHI entities from various domains and document types, making it highly suitable for tasks such as Named Entity Recognition (NER), text classification, and domain-specific document analysis. The dataset is split into a training set (50k records), a validation set (5k records), and a test set (5k records), with distribution across multiple domains and entity types.
提供机构:
Gretel.ai
创建时间:
2024-10-15
原始信息汇总
Gretel Synthetic Domain-Specific Documents Dataset (English)
概述
该数据集是一个合成生成的文档集合,包含个人身份信息(PII)和受保护的健康信息(PHI)实体,涵盖多个领域。使用Gretel Navigator和mistral-nemo-2407模型生成,专为微调Gliner模型设计。适用于命名实体识别(NER)、文本分类和领域特定文档分析等任务。
关键特性
- 合成数据生成:完全由Gretel Navigator生成,确保数据样本的多样性和一致性。
- PII/PHI实体提取:文档包含广泛的PII和PHI实体,如姓名、日期和唯一标识符,按类型分类。
- 多样化的现实世界情境:涵盖金融、医疗、网络安全等多个行业,增强模型的泛化能力。
- 文档描述:每个文档包含结构和典型内容的描述,有助于文档分类和理解。
数据集列描述
- uid:每个文档的唯一标识符。
- domain:文档所属的行业或部门。
- document_type:文档在特定领域内的类别或格式。
- document_description:文档结构的详细概述。
- text:文档的核心文本内容。
- entities:文档中提取的PII/PHI实体列表。
数据集统计和分布
数据集分为训练集(50k记录)、验证集(5k)和测试集(5k),分布在多个领域和实体类型中。
领域分布
| 领域 | 训练集 | 验证集 | 测试集 |
|---|---|---|---|
| aerospace-defense | 1067 | 108 | 106 |
| agriculture-food-services | 1121 | 114 | 122 |
| authentication-services | 939 | 99 | 88 |
| automotive | 1112 | 103 | 97 |
| aviation | 1062 | 99 | 81 |
| banking | 1013 | 103 | 118 |
| biometrics | 1281 | 103 | 113 |
| blockchain | 1034 | 101 | 105 |
| cloud-services | 1065 | 120 | 118 |
| code-review | 659 | 56 | 66 |
| compliance-regulation | 1249 | 148 | 147 |
| cryptography | 1197 | 119 | 104 |
| cybersecurity | 927 | 104 | 103 |
| data-privacy | 1395 | 144 | 138 |
| defense-security | 1077 | 95 | 103 |
| digital-certificates | 1072 | 103 | 97 |
| digital-payments | 947 | 102 | 112 |
| e-commerce | 730 | 85 | 65 |
| education | 972 | 104 | 95 |
| energy-utilities | 1024 | 113 | 115 |
| finance | 1001 | 102 | 94 |
| financial-services | 1027 | 94 | 117 |
| government | 1224 | 124 | 111 |
| healthcare | 1207 | 108 | 133 |
| healthcare-administration | 1194 | 131 | 118 |
| human-resources | 933 | 80 | 79 |
| identity-verification | 1298 | 118 | 121 |
| information-technology | 808 | 73 | 87 |
| insurance | 1087 | 106 | 116 |
| internet-services | 1074 | 119 | 115 |
| legal-documents | 790 | 73 | 68 |
| logistics-transportation | 1291 | 147 | 130 |
| manufacturing | 1283 | 124 | 125 |
| marine | 1049 | 104 | 99 |
| media-entertainment | 864 | 93 | 81 |
| networking | 1097 | 109 | 92 |
| non-profit-charity | 920 | 86 | 85 |
| pharmaceuticals-biotechnology | 1273 | 133 | 152 |
| public-sector | 1234 | 124 | 119 |
| real-estate | 882 | 100 | 91 |
| retail-consumer-goods | 977 | 96 | 99 |
| security | 1155 | 119 | 111 |
| supply-chain | 1206 | 113 | 125 |
| technology-software | 917 | 93 | 79 |
| telecommunications | 1005 | 105 | 123 |
| transportation | 1286 | 143 | 134 |
| travel-hospitality | 975 | 60 | 103 |
实体类型分布
| 实体类型 | 训练集 | 验证集 | 测试集 |
|---|---|---|---|
| medical_record_number | 26031 | 2589 | 2658 |
| date_of_birth | 23684 | 2345 | 2331 |
| ssn | 16877 | 1734 | 1661 |
| date | 11740 | 1170 | 1157 |
| first_name | 11421 | 1098 | 1172 |
| 10891 | 1104 | 1049 | |
| last_name | 10804 | 1040 | 1057 |
| customer_id | 10023 | 1025 | 1033 |
| employee_id | 9945 | 988 | 1005 |
| name | 9688 | 1015 | 980 |
| street_address | 8576 | 939 | 869 |
| phone_number | 8537 | 884 | 904 |
| ipv4 | 8235 | 817 | 896 |
| credit_card_number | 6469 | 634 | 663 |
| license_plate | 6000 | 613 | 579 |
| address | 5563 | 551 | 563 |
| user_name | 3252 | 305 | 338 |
| device_identifier | 2253 | 213 | 249 |
| bank_routing_number | 2158 | 210 | 257 |
| date_time | 2043 | 206 | 211 |
| company_name | 1950 | 177 | 185 |
| unique_identifier | 1842 | 189 | 189 |
| biometric_identifier | 1552 | 129 | 137 |
| account_number | 1328 | 134 | 141 |
| city | 1321 | 138 | 128 |
| certificate_license_number | 1307 | 133 | 124 |
| time | 1104 | 112 | 106 |
| postcode | 955 | 93 | 104 |
| vehicle_identifier | 941 | 101 | 98 |
| coordinate | 814 | 62 | 85 |
| country | 767 | 78 | 71 |
| api_key | 731 | 83 | 60 |
| ipv6 | 622 | 61 | 66 |
| password | 569 | 64 | 59 |
| health_plan_beneficiary_number | 446 | 48 | 41 |
| national_id | 425 | 44 | 46 |
| tax_id | 303 | 31 | 23 |
| url | 287 | 40 | 23 |
| state | 284 | 24 | 27 |
| swift_bic | 209 | 22 | 28 |
| cvv | 96 | 11 | 3 |
| pin | 27 | 4 | 2 |
微调模型
使用该数据集微调的多个模型可在Hugging Face上获取:
gretelai/gretel-gliner-bi-small-v1.0gretelai/gretel-gliner-bi-base-v1.0gretelai/gretel-gliner-bi-large-v1.0
引用和使用
如在研究或应用中使用此数据集,请引用: bibtex @dataset{gretel-pii-docs-en-v1, author = {Gretel AI}, title = {GLiNER Models for PII Detection through Fine-Tuning on Gretel-Generated Synthetic Documents}, year = {2024}, month = {10}, publisher = {Gretel}, }
搜集汇总
数据集介绍

构建方式
该数据集通过Gretel Navigator工具结合mistral-nemo-2407模型生成,专注于合成包含个人身份信息(PII)和受保护健康信息(PHI)的文档。数据生成过程经过自动化验证,确保样本的多样性和质量。数据集涵盖了多个领域的文档类型,旨在为命名实体识别(NER)、文本分类和领域特定文档分析等任务提供丰富的训练资源。
特点
该数据集的特点在于其完全由合成数据构成,确保了数据的多样性和真实性。文档中包含了广泛的PII和PHI实体,如姓名、日期和唯一标识符,并按类型进行分类。数据集覆盖了金融、医疗、网络安全等多个行业,提供了丰富的上下文信息,有助于提升模型的泛化能力。此外,每个文档均附有描述,详细说明其结构和内容,为文档分类和理解提供了额外支持。
使用方法
该数据集适用于多种自然语言处理任务,如命名实体识别、文本分类和敏感信息检测。用户可以通过加载训练、验证和测试集来训练和评估模型。数据集中包含的实体列表和文档描述为模型提供了丰富的上下文信息,有助于提升任务性能。此外,Gretel AI还提供了基于该数据集微调的多个模型,用户可直接应用于PII/PHI检测任务,进一步简化了模型开发流程。
背景与挑战
背景概述
Gretel PII Masking En V1数据集由Gretel AI于2024年10月发布,旨在为涉及敏感信息的任务提供高质量的合成数据资源。该数据集通过Gretel Navigator生成,并利用mistral-nemo-2407作为后端模型,专门用于微调GLiNER模型。数据集涵盖了多个领域的文档,包含丰富的个人身份信息(PII)和受保护的健康信息(PHI)实体,适用于命名实体识别(NER)、文本分类和领域特定文档分析等任务。其多样化的数据样本和自动化验证机制,为隐私增强型模型的开发提供了坚实的基础。
当前挑战
Gretel PII Masking En V1数据集在构建和应用过程中面临多重挑战。首先,合成数据的生成需要确保其与现实世界数据的相似性和多样性,以避免模型过拟合或泛化能力不足。其次,PII和PHI实体的标注和分类要求极高的准确性,以确保模型在敏感信息检测和屏蔽任务中的可靠性。此外,数据集涵盖多个行业和文档类型,如何平衡各领域的样本分布,避免数据偏差,也是一个重要的挑战。最后,自动化验证机制的设计与实施,需要在保证数据质量的同时,兼顾效率和可扩展性。
常用场景
经典使用场景
在自然语言处理领域,gretel-pii-masking-en-v1数据集广泛应用于命名实体识别(NER)任务。该数据集通过合成生成的方式,提供了丰富的个人身份信息(PII)和受保护的健康信息(PHI)实体,涵盖了多个行业和文档类型。研究人员和开发者可以利用该数据集对模型进行微调,以提升其在敏感信息检测和提取方面的性能。
实际应用
在实际应用中,gretel-pii-masking-en-v1数据集被广泛用于金融、医疗、网络安全等行业。例如,在医疗领域,该数据集可用于训练模型以自动识别和屏蔽病历中的敏感信息,确保患者隐私得到保护。在金融领域,该数据集则有助于检测和屏蔽交易记录中的个人身份信息,防止数据泄露。
衍生相关工作
基于gretel-pii-masking-en-v1数据集,研究人员开发了多个经典模型,如gretelai/gretel-gliner-bi-small-v1.0、gretelai/gretel-gliner-bi-base-v1.0和gretelai/gretel-gliner-bi-large-v1.0。这些模型在PII/PHI检测任务中表现出色,进一步推动了隐私保护技术的发展,并为相关领域的研究提供了重要的参考和工具。
以上内容由遇见数据集搜集并总结生成



