pii-masking-300k
收藏OpenCSG2024-07-19 更新2026-01-19 收录
下载链接:
https://opencsg.com/datasets/AIWizards/pii-masking-300k?tab=summary
下载链接
链接失效反馈官方服务:
资源简介:
Ai4Privacy PII 300k Dataset是目前全球最大的开放数据集,专注于隐私信息脱敏,旨在训练和评估能够从文本中移除个人身份信息和敏感信息的模型,尤其适用于AI助手和大型语言模型。该数据集包含超过22万条文本条目,共计3040万个文本标记,其中包含760万个PII标记,涵盖27种PII类别,针对教育、健康和心理学等领域的749个讨论主题。同时,它还支持6种语言,包括英语、法语、德语、意大利语、荷兰语和西班牙语,并在8个司法管辖区进行了本地化。该数据集提供训练/验证集划分,并采用专有算法生成合成数据,确保没有隐私泄露。经过人工验证,数据集质量高,标注准确率约为98.3%。该数据集适用于多种机器学习任务,如token分类和文本生成,并提供标准化数据操作。学术用途鼓励引用,商业用途需联系授权。
提供机构:
AIWizards
创建时间:
2024-07-19



