five

gretelai/gretel-pii-masking-en-v1

收藏
Hugging Face2025-12-17 更新2025-04-08 收录
下载链接:
https://hf-mirror.com/datasets/gretelai/gretel-pii-masking-en-v1
下载链接
链接失效反馈
官方服务:
资源简介:
Gretel合成特定领域文档数据集(英语版)是一个包含个人识别信息(PII)和保护健康信息(PHI)的合成文档集合,跨越多个领域。该数据集使用Gretel Navigator和mistral-nemo-2407作为后端模型创建,专为微调Gliner模型而设计。数据集中的文档片段包含来自广泛领域和文档类型的PII/PHI实体,是进行命名实体识别(NER)、文本分类和特定领域文档分析等任务的理想资源。

The Gretel Synthetic Domain-Specific Documents Dataset (English) is a collection of synthetically generated documents enriched with Personally Identifiable Information (PII) and Protected Health Information (PHI) entities across multiple domains. Created using Gretel Navigator with mistral-nemo-2407 as the backend model, it is specifically designed for fine-tuning Gliner models. The dataset includes document passages with PII/PHI entities from a wide range of domain and document types, making it an ideal resource for tasks such as Named Entity Recognition (NER), text classification, and domain-specific document analysis.
提供机构:
gretelai
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作