synthetic_pii_docs_multidomain_en
收藏Hugging Face2024-10-17 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/gretelai/synthetic_pii_docs_multidomain_en
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个合成生成的文档集合,包含个人身份信息(PII)和受保护的健康信息(PHI)实体。它专门设计用于微调Gliner模型,适用于命名实体识别(NER)、文本分类和特定领域文档分析等任务。数据集涵盖多个行业,并包含每个文档的详细描述,使其成为开发和微调涉及敏感信息任务模型的全面资源。数据集分为训练、验证和测试集,分布在多个领域和实体类型中。
提供机构:
Gretel.ai
创建时间:
2024-10-15
搜集汇总
数据集介绍

构建方式
该数据集通过Gretel Navigator工具,利用mistral-nemo-2407模型作为后端,生成了包含个人身份信息(PII)和受保护健康信息(PHI)的合成文档。这些文档涵盖了多个领域的真实场景,旨在为Gliner模型的微调提供高质量的训练数据。数据生成过程中,自动化验证确保了数据的多样性和一致性,使其成为命名实体识别(NER)、文本分类和领域特定文档分析等任务的理想资源。
特点
该数据集的特点在于其丰富的合成数据生成和广泛的实体覆盖。文档中包含了多种PII和PHI实体,如姓名、日期和唯一标识符,这些实体按类型分类,为NER和敏感信息检测任务提供了坚实的基础。此外,数据集涵盖了金融、医疗、网络安全等多个行业,确保了模型在不同领域的泛化能力。每个文档还附有详细的描述,帮助用户理解文档结构和内容,进一步增强了数据集的实用性。
使用方法
该数据集的使用方法主要围绕模型微调和任务训练展开。用户可以通过加载训练集、验证集和测试集,进行NER、文本分类等任务的模型训练与评估。数据集中的文档描述和实体标注为模型提供了丰富的上下文信息,有助于提升模型在敏感信息检测和文档分类中的表现。此外,Gretel AI还提供了基于该数据集微调的多个Gliner模型,用户可以直接使用这些模型进行PII/PHI检测任务,或在此基础上进行进一步优化。
背景与挑战
背景概述
synthetic_pii_docs_multidomain_en数据集由Gretel AI于2024年10月发布,旨在为涉及敏感信息的任务提供丰富的训练资源。该数据集通过Gretel Navigator平台生成,基于mistral-nemo-2407模型,专注于包含个人身份信息(PII)和受保护健康信息(PHI)的多领域文档。其核心研究问题在于如何通过合成数据提升模型在命名实体识别(NER)、文本分类和领域特定文档分析中的表现。该数据集涵盖了金融、医疗、网络安全等多个行业,为模型在真实场景中的泛化能力提供了有力支持。
当前挑战
该数据集在构建过程中面临多重挑战。首先,合成数据的生成需要确保其多样性和真实性,同时避免引入偏差或重复样本。其次,PII和PHI实体的标注需要高精度,以确保模型在敏感信息检测和脱敏任务中的可靠性。此外,跨领域文档的覆盖范围广泛,要求数据在行业间保持平衡,避免某些领域的数据过少影响模型性能。最后,自动化验证流程的设计与实施也是关键,以确保数据质量和一致性,从而为模型训练提供坚实的基础。
常用场景
经典使用场景
在自然语言处理领域,synthetic_pii_docs_multidomain_en数据集广泛应用于命名实体识别(NER)和文本分类任务。其丰富的合成文档涵盖了多个行业,如金融、医疗和网络安全,为模型提供了多样化的训练数据。通过该数据集,研究人员能够有效训练和微调模型,以识别和处理敏感信息,如个人身份信息(PII)和受保护的健康信息(PHI)。
解决学术问题
该数据集解决了在隐私保护和敏感信息处理领域中的关键学术问题。通过提供大量合成且多样化的PII/PHI实体数据,研究人员能够开发出更加精准的实体识别模型,从而提升敏感信息的检测和屏蔽能力。这不仅推动了隐私保护技术的发展,还为跨行业的数据安全研究提供了坚实的基础。
衍生相关工作
基于synthetic_pii_docs_multidomain_en数据集,研究人员开发了多个经典模型,如gretelai/gretel-gliner-bi-small-v1.0、gretelai/gretel-gliner-bi-base-v1.0和gretelai/gretel-gliner-bi-large-v1.0。这些模型专注于PII/PHI检测,广泛应用于隐私保护和数据安全领域,推动了相关技术的进步和应用。
以上内容由遇见数据集搜集并总结生成



