five

gretel-pii-masking-en-v1

收藏
Hugging Face2024-10-25 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/gretelai/gretel-pii-masking-en-v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个合成生成的文档集合,包含个人身份信息(PII)和受保护的健康信息(PHI)实体,涵盖多个领域。数据集由Gretel Navigator使用mistral-nemo-2407作为后端模型生成,专门设计用于微调Gliner模型。数据集包含来自多个领域和文档类型的PII/PHI实体的文档段落,非常适合命名实体识别(NER)、文本分类和领域特定文档分析等任务。数据集分为训练集(50k记录)、验证集(5k)和测试集(5k),并分布在多个领域和实体类型中。

This dataset is a synthetically generated document collection containing Personally Identifiable Information (PII) and Protected Health Information (PHI) entities, spanning multiple domains. Generated by Gretel Navigator using mistral-nemo-2407 as the backend model, this dataset is specifically designed for fine-tuning the Gliner model. It includes document passages with PII/PHI entities from various domains and document types, making it highly suitable for tasks such as Named Entity Recognition (NER), text classification, and domain-specific document analysis. The dataset is split into a training set (50k records), a validation set (5k records), and a test set (5k records), with distribution across multiple domains and entity types.
提供机构:
Gretel.ai
创建时间:
2024-10-15
原始信息汇总

Gretel Synthetic Domain-Specific Documents Dataset (English)

概述

该数据集是一个合成生成的文档集合,包含个人身份信息(PII)和受保护的健康信息(PHI)实体,涵盖多个领域。使用Gretel Navigator和mistral-nemo-2407模型生成,专为微调Gliner模型设计。适用于命名实体识别(NER)、文本分类和领域特定文档分析等任务。

关键特性

  • 合成数据生成:完全由Gretel Navigator生成,确保数据样本的多样性和一致性。
  • PII/PHI实体提取:文档包含广泛的PII和PHI实体,如姓名、日期和唯一标识符,按类型分类。
  • 多样化的现实世界情境:涵盖金融、医疗、网络安全等多个行业,增强模型的泛化能力。
  • 文档描述:每个文档包含结构和典型内容的描述,有助于文档分类和理解。

数据集列描述

  • uid:每个文档的唯一标识符。
  • domain:文档所属的行业或部门。
  • document_type:文档在特定领域内的类别或格式。
  • document_description:文档结构的详细概述。
  • text:文档的核心文本内容。
  • entities:文档中提取的PII/PHI实体列表。

数据集统计和分布

数据集分为训练集(50k记录)、验证集(5k)和测试集(5k),分布在多个领域和实体类型中。

领域分布

领域 训练集 验证集 测试集
aerospace-defense 1067 108 106
agriculture-food-services 1121 114 122
authentication-services 939 99 88
automotive 1112 103 97
aviation 1062 99 81
banking 1013 103 118
biometrics 1281 103 113
blockchain 1034 101 105
cloud-services 1065 120 118
code-review 659 56 66
compliance-regulation 1249 148 147
cryptography 1197 119 104
cybersecurity 927 104 103
data-privacy 1395 144 138
defense-security 1077 95 103
digital-certificates 1072 103 97
digital-payments 947 102 112
e-commerce 730 85 65
education 972 104 95
energy-utilities 1024 113 115
finance 1001 102 94
financial-services 1027 94 117
government 1224 124 111
healthcare 1207 108 133
healthcare-administration 1194 131 118
human-resources 933 80 79
identity-verification 1298 118 121
information-technology 808 73 87
insurance 1087 106 116
internet-services 1074 119 115
legal-documents 790 73 68
logistics-transportation 1291 147 130
manufacturing 1283 124 125
marine 1049 104 99
media-entertainment 864 93 81
networking 1097 109 92
non-profit-charity 920 86 85
pharmaceuticals-biotechnology 1273 133 152
public-sector 1234 124 119
real-estate 882 100 91
retail-consumer-goods 977 96 99
security 1155 119 111
supply-chain 1206 113 125
technology-software 917 93 79
telecommunications 1005 105 123
transportation 1286 143 134
travel-hospitality 975 60 103

实体类型分布

实体类型 训练集 验证集 测试集
medical_record_number 26031 2589 2658
date_of_birth 23684 2345 2331
ssn 16877 1734 1661
date 11740 1170 1157
first_name 11421 1098 1172
email 10891 1104 1049
last_name 10804 1040 1057
customer_id 10023 1025 1033
employee_id 9945 988 1005
name 9688 1015 980
street_address 8576 939 869
phone_number 8537 884 904
ipv4 8235 817 896
credit_card_number 6469 634 663
license_plate 6000 613 579
address 5563 551 563
user_name 3252 305 338
device_identifier 2253 213 249
bank_routing_number 2158 210 257
date_time 2043 206 211
company_name 1950 177 185
unique_identifier 1842 189 189
biometric_identifier 1552 129 137
account_number 1328 134 141
city 1321 138 128
certificate_license_number 1307 133 124
time 1104 112 106
postcode 955 93 104
vehicle_identifier 941 101 98
coordinate 814 62 85
country 767 78 71
api_key 731 83 60
ipv6 622 61 66
password 569 64 59
health_plan_beneficiary_number 446 48 41
national_id 425 44 46
tax_id 303 31 23
url 287 40 23
state 284 24 27
swift_bic 209 22 28
cvv 96 11 3
pin 27 4 2

微调模型

使用该数据集微调的多个模型可在Hugging Face上获取:

引用和使用

如在研究或应用中使用此数据集,请引用: bibtex @dataset{gretel-pii-docs-en-v1, author = {Gretel AI}, title = {GLiNER Models for PII Detection through Fine-Tuning on Gretel-Generated Synthetic Documents}, year = {2024}, month = {10}, publisher = {Gretel}, }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过Gretel Navigator工具结合mistral-nemo-2407模型生成,专注于合成包含个人身份信息(PII)和受保护健康信息(PHI)的文档。数据生成过程经过自动化验证,确保样本的多样性和质量。数据集涵盖了多个领域的文档类型,旨在为命名实体识别(NER)、文本分类和领域特定文档分析等任务提供丰富的训练资源。
特点
该数据集的特点在于其完全由合成数据构成,确保了数据的多样性和真实性。文档中包含了广泛的PII和PHI实体,如姓名、日期和唯一标识符,并按类型进行分类。数据集覆盖了金融、医疗、网络安全等多个行业,提供了丰富的上下文信息,有助于提升模型的泛化能力。此外,每个文档均附有描述,详细说明其结构和内容,为文档分类和理解提供了额外支持。
使用方法
该数据集适用于多种自然语言处理任务,如命名实体识别、文本分类和敏感信息检测。用户可以通过加载训练、验证和测试集来训练和评估模型。数据集中包含的实体列表和文档描述为模型提供了丰富的上下文信息,有助于提升任务性能。此外,Gretel AI还提供了基于该数据集微调的多个模型,用户可直接应用于PII/PHI检测任务,进一步简化了模型开发流程。
背景与挑战
背景概述
Gretel PII Masking En V1数据集由Gretel AI于2024年10月发布,旨在为涉及敏感信息的任务提供高质量的合成数据资源。该数据集通过Gretel Navigator生成,并利用mistral-nemo-2407作为后端模型,专门用于微调GLiNER模型。数据集涵盖了多个领域的文档,包含丰富的个人身份信息(PII)和受保护的健康信息(PHI)实体,适用于命名实体识别(NER)、文本分类和领域特定文档分析等任务。其多样化的数据样本和自动化验证机制,为隐私增强型模型的开发提供了坚实的基础。
当前挑战
Gretel PII Masking En V1数据集在构建和应用过程中面临多重挑战。首先,合成数据的生成需要确保其与现实世界数据的相似性和多样性,以避免模型过拟合或泛化能力不足。其次,PII和PHI实体的标注和分类要求极高的准确性,以确保模型在敏感信息检测和屏蔽任务中的可靠性。此外,数据集涵盖多个行业和文档类型,如何平衡各领域的样本分布,避免数据偏差,也是一个重要的挑战。最后,自动化验证机制的设计与实施,需要在保证数据质量的同时,兼顾效率和可扩展性。
常用场景
经典使用场景
在自然语言处理领域,gretel-pii-masking-en-v1数据集广泛应用于命名实体识别(NER)任务。该数据集通过合成生成的方式,提供了丰富的个人身份信息(PII)和受保护的健康信息(PHI)实体,涵盖了多个行业和文档类型。研究人员和开发者可以利用该数据集对模型进行微调,以提升其在敏感信息检测和提取方面的性能。
实际应用
在实际应用中,gretel-pii-masking-en-v1数据集被广泛用于金融、医疗、网络安全等行业。例如,在医疗领域,该数据集可用于训练模型以自动识别和屏蔽病历中的敏感信息,确保患者隐私得到保护。在金融领域,该数据集则有助于检测和屏蔽交易记录中的个人身份信息,防止数据泄露。
衍生相关工作
基于gretel-pii-masking-en-v1数据集,研究人员开发了多个经典模型,如gretelai/gretel-gliner-bi-small-v1.0、gretelai/gretel-gliner-bi-base-v1.0和gretelai/gretel-gliner-bi-large-v1.0。这些模型在PII/PHI检测任务中表现出色,进一步推动了隐私保护技术的发展,并为相关领域的研究提供了重要的参考和工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作