gretel-pii-masking-en-v1

Name: gretel-pii-masking-en-v1
Creator: Gretel.ai
Published: 2024-10-25 02:14:21
License: 暂无描述

Hugging Face2024-10-25 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/gretelai/gretel-pii-masking-en-v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个合成生成的文档集合，包含个人身份信息（PII）和受保护的健康信息（PHI）实体，涵盖多个领域。数据集由Gretel Navigator使用mistral-nemo-2407作为后端模型生成，专门设计用于微调Gliner模型。数据集包含来自多个领域和文档类型的PII/PHI实体的文档段落，非常适合命名实体识别（NER）、文本分类和领域特定文档分析等任务。数据集分为训练集（50k记录）、验证集（5k）和测试集（5k），并分布在多个领域和实体类型中。

This dataset is a synthetically generated document collection containing Personally Identifiable Information (PII) and Protected Health Information (PHI) entities, spanning multiple domains. Generated by Gretel Navigator using mistral-nemo-2407 as the backend model, this dataset is specifically designed for fine-tuning the Gliner model. It includes document passages with PII/PHI entities from various domains and document types, making it highly suitable for tasks such as Named Entity Recognition (NER), text classification, and domain-specific document analysis. The dataset is split into a training set (50k records), a validation set (5k records), and a test set (5k records), with distribution across multiple domains and entity types.

提供机构：

Gretel.ai

创建时间：

2024-10-15

原始信息汇总

Gretel Synthetic Domain-Specific Documents Dataset (English)

概述

该数据集是一个合成生成的文档集合，包含个人身份信息（PII）和受保护的健康信息（PHI）实体，涵盖多个领域。使用Gretel Navigator和mistral-nemo-2407模型生成，专为微调Gliner模型设计。适用于命名实体识别（NER）、文本分类和领域特定文档分析等任务。

关键特性

合成数据生成：完全由Gretel Navigator生成，确保数据样本的多样性和一致性。
PII/PHI实体提取：文档包含广泛的PII和PHI实体，如姓名、日期和唯一标识符，按类型分类。
多样化的现实世界情境：涵盖金融、医疗、网络安全等多个行业，增强模型的泛化能力。
文档描述：每个文档包含结构和典型内容的描述，有助于文档分类和理解。

数据集列描述

uid：每个文档的唯一标识符。
domain：文档所属的行业或部门。
document_type：文档在特定领域内的类别或格式。
document_description：文档结构的详细概述。
text：文档的核心文本内容。
entities：文档中提取的PII/PHI实体列表。

数据集统计和分布

数据集分为训练集（50k记录）、验证集（5k）和测试集（5k），分布在多个领域和实体类型中。

领域分布

领域	训练集	验证集	测试集
aerospace-defense	1067	108	106
agriculture-food-services	1121	114	122
authentication-services	939	99	88
automotive	1112	103	97
aviation	1062	99	81
banking	1013	103	118
biometrics	1281	103	113
blockchain	1034	101	105
cloud-services	1065	120	118
code-review	659	56	66
compliance-regulation	1249	148	147
cryptography	1197	119	104
cybersecurity	927	104	103
data-privacy	1395	144	138
defense-security	1077	95	103
digital-certificates	1072	103	97
digital-payments	947	102	112
e-commerce	730	85	65
education	972	104	95
energy-utilities	1024	113	115
finance	1001	102	94
financial-services	1027	94	117
government	1224	124	111
healthcare	1207	108	133
healthcare-administration	1194	131	118
human-resources	933	80	79
identity-verification	1298	118	121
information-technology	808	73	87
insurance	1087	106	116
internet-services	1074	119	115
legal-documents	790	73	68
logistics-transportation	1291	147	130
manufacturing	1283	124	125
marine	1049	104	99
media-entertainment	864	93	81
networking	1097	109	92
non-profit-charity	920	86	85
pharmaceuticals-biotechnology	1273	133	152
public-sector	1234	124	119
real-estate	882	100	91
retail-consumer-goods	977	96	99
security	1155	119	111
supply-chain	1206	113	125
technology-software	917	93	79
telecommunications	1005	105	123
transportation	1286	143	134
travel-hospitality	975	60	103

实体类型分布

实体类型	训练集	验证集	测试集
medical_record_number	26031	2589	2658
date_of_birth	23684	2345	2331
ssn	16877	1734	1661
date	11740	1170	1157
first_name	11421	1098	1172
email	10891	1104	1049
last_name	10804	1040	1057
customer_id	10023	1025	1033
employee_id	9945	988	1005
name	9688	1015	980
street_address	8576	939	869
phone_number	8537	884	904
ipv4	8235	817	896
credit_card_number	6469	634	663
license_plate	6000	613	579
address	5563	551	563
user_name	3252	305	338
device_identifier	2253	213	249
bank_routing_number	2158	210	257
date_time	2043	206	211
company_name	1950	177	185
unique_identifier	1842	189	189
biometric_identifier	1552	129	137
account_number	1328	134	141
city	1321	138	128
certificate_license_number	1307	133	124
time	1104	112	106
postcode	955	93	104
vehicle_identifier	941	101	98
coordinate	814	62	85
country	767	78	71
api_key	731	83	60
ipv6	622	61	66
password	569	64	59
health_plan_beneficiary_number	446	48	41
national_id	425	44	46
tax_id	303	31	23
url	287	40	23
state	284	24	27
swift_bic	209	22	28
cvv	96	11	3
pin	27	4	2

微调模型

使用该数据集微调的多个模型可在Hugging Face上获取：

引用和使用

如在研究或应用中使用此数据集，请引用： bibtex @dataset{gretel-pii-docs-en-v1, author = {Gretel AI}, title = {GLiNER Models for PII Detection through Fine-Tuning on Gretel-Generated Synthetic Documents}, year = {2024}, month = {10}, publisher = {Gretel}, }

搜集汇总

数据集介绍

构建方式

该数据集通过Gretel Navigator工具结合mistral-nemo-2407模型生成，专注于合成包含个人身份信息（PII）和受保护健康信息（PHI）的文档。数据生成过程经过自动化验证，确保样本的多样性和质量。数据集涵盖了多个领域的文档类型，旨在为命名实体识别（NER）、文本分类和领域特定文档分析等任务提供丰富的训练资源。

特点

该数据集的特点在于其完全由合成数据构成，确保了数据的多样性和真实性。文档中包含了广泛的PII和PHI实体，如姓名、日期和唯一标识符，并按类型进行分类。数据集覆盖了金融、医疗、网络安全等多个行业，提供了丰富的上下文信息，有助于提升模型的泛化能力。此外，每个文档均附有描述，详细说明其结构和内容，为文档分类和理解提供了额外支持。

使用方法

该数据集适用于多种自然语言处理任务，如命名实体识别、文本分类和敏感信息检测。用户可以通过加载训练、验证和测试集来训练和评估模型。数据集中包含的实体列表和文档描述为模型提供了丰富的上下文信息，有助于提升任务性能。此外，Gretel AI还提供了基于该数据集微调的多个模型，用户可直接应用于PII/PHI检测任务，进一步简化了模型开发流程。

背景与挑战

背景概述

Gretel PII Masking En V1数据集由Gretel AI于2024年10月发布，旨在为涉及敏感信息的任务提供高质量的合成数据资源。该数据集通过Gretel Navigator生成，并利用mistral-nemo-2407作为后端模型，专门用于微调GLiNER模型。数据集涵盖了多个领域的文档，包含丰富的个人身份信息（PII）和受保护的健康信息（PHI）实体，适用于命名实体识别（NER）、文本分类和领域特定文档分析等任务。其多样化的数据样本和自动化验证机制，为隐私增强型模型的开发提供了坚实的基础。

当前挑战

Gretel PII Masking En V1数据集在构建和应用过程中面临多重挑战。首先，合成数据的生成需要确保其与现实世界数据的相似性和多样性，以避免模型过拟合或泛化能力不足。其次，PII和PHI实体的标注和分类要求极高的准确性，以确保模型在敏感信息检测和屏蔽任务中的可靠性。此外，数据集涵盖多个行业和文档类型，如何平衡各领域的样本分布，避免数据偏差，也是一个重要的挑战。最后，自动化验证机制的设计与实施，需要在保证数据质量的同时，兼顾效率和可扩展性。

常用场景

经典使用场景

在自然语言处理领域，gretel-pii-masking-en-v1数据集广泛应用于命名实体识别（NER）任务。该数据集通过合成生成的方式，提供了丰富的个人身份信息（PII）和受保护的健康信息（PHI）实体，涵盖了多个行业和文档类型。研究人员和开发者可以利用该数据集对模型进行微调，以提升其在敏感信息检测和提取方面的性能。

实际应用

在实际应用中，gretel-pii-masking-en-v1数据集被广泛用于金融、医疗、网络安全等行业。例如，在医疗领域，该数据集可用于训练模型以自动识别和屏蔽病历中的敏感信息，确保患者隐私得到保护。在金融领域，该数据集则有助于检测和屏蔽交易记录中的个人身份信息，防止数据泄露。

衍生相关工作

基于gretel-pii-masking-en-v1数据集，研究人员开发了多个经典模型，如gretelai/gretel-gliner-bi-small-v1.0、gretelai/gretel-gliner-bi-base-v1.0和gretelai/gretel-gliner-bi-large-v1.0。这些模型在PII/PHI检测任务中表现出色，进一步推动了隐私保护技术的发展，并为相关领域的研究提供了重要的参考和工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集