five

NicheDataSolutions/multilingual-pii-free-dataset

收藏
Hugging Face2026-04-23 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/NicheDataSolutions/multilingual-pii-free-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
NicheDataSolutions多语言PII-Free数据集v2包含484个高质量文档(约1800万token),涵盖5个专业领域和12种语言。数据集经过彻底的个人身份信息(PII)清除处理,可用于商业AI训练。主要特点包括:100%绿色许可证(CC0/美国公共领域/政府公共领域);采用智能PII移除技术(正则表达式+多语言SpaCy NER);包含超稀有语言数据(白俄罗斯语97篇、乌尔都语33篇、挪威语38篇、丹麦语20篇);领域多样化(科学187篇、法律162篇、金融70篇、医学45篇、IT遗留系统5篇)。数据格式为JSONL,每行包含metadata(领域、语言、质量评分等元数据)和content(清洗后的训练文本)字段。适用于多语言基础模型预训练、领域特定AI(法律AI、医疗AI、金融AI)微调以及低资源语言评估基准。

NicheDataSolutions — Multilingual PII-Free Dataset v2 contains 484 high-quality documents (~18M tokens) across 5 niches and 12 languages, fully PII-scrubbed and cleared for commercial AI training. Key features include: 100% GREEN License (CC0 / US Public Domain / Government PD); Smart PII Removal (Regex + Multilingual SpaCy NER); Ultra-Rare Languages (Belarusian - 97 docs, Urdu - 33, Norwegian - 38, Danish - 20); Niche Diverse (Science - 187, Legal - 162, Finance - 70, Medical - 45, IT Legacy - 5). Format is JSONL with each line containing metadata (niche, language, quality_score etc.) and content (cleaned training text). Ideal for multilingual base model pre-training, domain-specific fine-tuning (Legal AI, Medical AI, Finance AI), and low-resource language evaluation benchmarks.
提供机构:
NicheDataSolutions
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作