TypicaAI/pii-masking-60k_fr
收藏Hugging Face2024-05-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TypicaAI/pii-masking-60k_fr
下载链接
链接失效反馈官方服务:
资源简介:
这个PII法语数据集基于世界上最大的开源隐私数据集:ai4privacy/pii-masking-200k。原始数据集ai4privacy/pii-masking-200k通过基于BERT的语言分类器进行过滤,仅保留法语行。该数据集仅用于教育目的。
这个PII法语数据集基于世界上最大的开源隐私数据集:ai4privacy/pii-masking-200k。原始数据集ai4privacy/pii-masking-200k通过基于BERT的语言分类器进行过滤,仅保留法语行。该数据集仅用于教育目的。
提供机构:
TypicaAI
原始信息汇总
PII French dataset
数据集信息
特征
- masked_text: 类型为字符串
- unmasked_text: 类型为字符串
- privacy_mask: 类型为字符串
- span_labels: 类型为字符串
- bio_labels: 序列类型为字符串
- tokenised_text: 序列类型为字符串
分割
- train: 字节数为105030283,样本数为61918
大小
- 下载大小: 31820221字节
- 数据集大小: 105030283字节
配置
- default: 数据文件路径为
data/train-*
任务类别
- token-classification
语言
- fr
标签
- PII
- Privacy
- NER
名称
- typica.ai French PII dataset
大小类别
- 10K<n<100K



