synthetic_pii_docs_multidomain_en

Name: synthetic_pii_docs_multidomain_en
Creator: Gretel.ai
Published: 2024-10-17 06:50:25
License: 暂无描述

Hugging Face2024-10-17 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/gretelai/synthetic_pii_docs_multidomain_en

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个合成生成的文档集合，包含个人身份信息（PII）和受保护的健康信息（PHI）实体。它专门设计用于微调Gliner模型，适用于命名实体识别（NER）、文本分类和特定领域文档分析等任务。数据集涵盖多个行业，并包含每个文档的详细描述，使其成为开发和微调涉及敏感信息任务模型的全面资源。数据集分为训练、验证和测试集，分布在多个领域和实体类型中。

提供机构：

Gretel.ai

创建时间：

2024-10-15

搜集汇总

数据集介绍

构建方式

该数据集通过Gretel Navigator工具，利用mistral-nemo-2407模型作为后端，生成了包含个人身份信息（PII）和受保护健康信息（PHI）的合成文档。这些文档涵盖了多个领域的真实场景，旨在为Gliner模型的微调提供高质量的训练数据。数据生成过程中，自动化验证确保了数据的多样性和一致性，使其成为命名实体识别（NER）、文本分类和领域特定文档分析等任务的理想资源。

特点

该数据集的特点在于其丰富的合成数据生成和广泛的实体覆盖。文档中包含了多种PII和PHI实体，如姓名、日期和唯一标识符，这些实体按类型分类，为NER和敏感信息检测任务提供了坚实的基础。此外，数据集涵盖了金融、医疗、网络安全等多个行业，确保了模型在不同领域的泛化能力。每个文档还附有详细的描述，帮助用户理解文档结构和内容，进一步增强了数据集的实用性。

使用方法

该数据集的使用方法主要围绕模型微调和任务训练展开。用户可以通过加载训练集、验证集和测试集，进行NER、文本分类等任务的模型训练与评估。数据集中的文档描述和实体标注为模型提供了丰富的上下文信息，有助于提升模型在敏感信息检测和文档分类中的表现。此外，Gretel AI还提供了基于该数据集微调的多个Gliner模型，用户可以直接使用这些模型进行PII/PHI检测任务，或在此基础上进行进一步优化。

背景与挑战

背景概述

synthetic_pii_docs_multidomain_en数据集由Gretel AI于2024年10月发布，旨在为涉及敏感信息的任务提供丰富的训练资源。该数据集通过Gretel Navigator平台生成，基于mistral-nemo-2407模型，专注于包含个人身份信息（PII）和受保护健康信息（PHI）的多领域文档。其核心研究问题在于如何通过合成数据提升模型在命名实体识别（NER）、文本分类和领域特定文档分析中的表现。该数据集涵盖了金融、医疗、网络安全等多个行业，为模型在真实场景中的泛化能力提供了有力支持。

当前挑战

该数据集在构建过程中面临多重挑战。首先，合成数据的生成需要确保其多样性和真实性，同时避免引入偏差或重复样本。其次，PII和PHI实体的标注需要高精度，以确保模型在敏感信息检测和脱敏任务中的可靠性。此外，跨领域文档的覆盖范围广泛，要求数据在行业间保持平衡，避免某些领域的数据过少影响模型性能。最后，自动化验证流程的设计与实施也是关键，以确保数据质量和一致性，从而为模型训练提供坚实的基础。

常用场景

经典使用场景

在自然语言处理领域，synthetic_pii_docs_multidomain_en数据集广泛应用于命名实体识别（NER）和文本分类任务。其丰富的合成文档涵盖了多个行业，如金融、医疗和网络安全，为模型提供了多样化的训练数据。通过该数据集，研究人员能够有效训练和微调模型，以识别和处理敏感信息，如个人身份信息（PII）和受保护的健康信息（PHI）。

解决学术问题

该数据集解决了在隐私保护和敏感信息处理领域中的关键学术问题。通过提供大量合成且多样化的PII/PHI实体数据，研究人员能够开发出更加精准的实体识别模型，从而提升敏感信息的检测和屏蔽能力。这不仅推动了隐私保护技术的发展，还为跨行业的数据安全研究提供了坚实的基础。

衍生相关工作

基于synthetic_pii_docs_multidomain_en数据集，研究人员开发了多个经典模型，如gretelai/gretel-gliner-bi-small-v1.0、gretelai/gretel-gliner-bi-base-v1.0和gretelai/gretel-gliner-bi-large-v1.0。这些模型专注于PII/PHI检测，广泛应用于隐私保护和数据安全领域，推动了相关技术的进步和应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集