five

SomaliWeb v1

收藏
github2026-05-07 更新2026-05-08 收录
下载链接:
https://github.com/khaledyusuf44/somali-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
SomaliWeb v1是一个经过质量过滤的索马里语网络语料库,包含约303M个标记,通过六个可重复阶段进行清理、去重和质量过滤,最终生成819,322个文档。

SomaliWeb v1 is a quality-filtered Somali-language web corpus containing approximately 303 million tokens. It was processed through six reproducible stages including cleaning, deduplication, and quality filtering, ultimately yielding 819,322 documents.
创建时间:
2026-04-26
原始信息汇总

SomaliWeb v1 数据集概述

数据集简介

SomaliWeb v1 是一个经过质量过滤的索马里语网络语料库,包含约 3.03亿 tokens(819,322 篇文档),由三个公开的索马里语数据源聚合而成,并通过六阶段可复现流水线处理得到。

数据来源

  • HPLT v2(主要来源)
  • CC100(Common Crawl 的索马里语子集)
  • Somali Wikipedia(约 9,000 篇文章)

处理流水线概要

流水线将 1,372,052 篇文档(约 5.88亿 tokens)的原始聚合数据,经过六个阶段处理,最终得到 819,322 篇文档(约 3.03亿 tokens),整体保留率为 59.7%(去除了 40.3% 的重复、过短、非索马里语或低质量内容)。

阶段 处理内容 运行时间(Apple M4 Pro)
阶段 1 合并与精确去重 83 秒
阶段 2 清洗与归一化(ftfy 修复乱码 + 长度过滤) 33 分钟
阶段 3 语言识别验证(langdetect + GlotLID) 14 分钟(10 线程)
阶段 4 近似去重(MinHash + LSH,Jaccard 阈值 τ=0.80) 5 分钟
阶段 5 质量过滤(基于干净种子集的字符 5-gram 覆盖率) 5.5 分钟
阶段 6 结构化发布(打乱/拆分 + 训练分词器 + 评估) ~2 分钟
总计 流水线总时间 ~1 小时

关键发现与指标

  • HPLT v2 字节精确重复率:17.3% 的 HPLT 输入被检测为重复
  • HPLT v2 乱码可修复比例:56.1% 的 HPLT 输入可通过 ftfy 修复 mojibake 乱码
  • 语言识别 F1 分数对比:langdetect(0.884)优于 GlotLID v3(0.829)
  • 分词器效率:SomaliWeb v1 分词器在 FLORES-200 索马里语测试集上,比 GPT-4 的 cl100k_base 分词器生育率(fertility)低 40.2%

数据集结构与格式

  • 发布数据:分为训练集(train.jsonl)和验证集(validation.jsonl)
  • 分词器:训练了 BPE-16K 分词器(tokenizer_somaliweb.json)
  • 所有随机种子固定为 seed = 0,确保可复现
  • Hugging Face 发布地址:https://huggingface.co/datasets/khaledyusuf44/somaliweb-v1

使用方式(Python)

python from datasets import load_dataset from tokenizers import Tokenizer

ds = load_dataset("khaledyusuf44/somaliweb-v1") tok = Tokenizer.from_file("tokenizer_somaliweb.json")

许可证信息

  • 流水线代码:MIT 许可证
  • 生成语料库:CC-BY-SA 4.0 许可证(继承自索马里语维基百科的许可证)

更多详细信息(包括引用格式)请参见 Hugging Face 数据集卡片:https://huggingface.co/datasets/khaledyusuf44/somaliweb-v1

搜集汇总
数据集介绍
main_image_url
构建方式
SomaliWeb v1数据集的构建始于对三种公开索马里语数据源的聚合,包括HPLT v2、CC100和索马里语维基百科,原始聚合规模涵盖约1.37百万文档与5.88亿词元。随后,数据经过一个包含六个阶段的可复现流水线处理:第一阶段执行字节级精确去重,第二阶段利用ftfy修复乱码并实施长度过滤,第三阶段结合langdetect与GlotLID进行语言识别与方言标注,第四阶段采用MinHash与局部敏感哈希实现近似去重(Jaccard相似度阈值设定为0.80),第五阶段基于字符五元组覆盖率进行质量筛选,最终在第六阶段完成数据混洗、分割、分词器训练及词元化效率评估。整个流程在Apple M4 Pro设备上约需1小时,最终保留约81.9万文档与3.03亿词元,整体留存率为59.7%。
使用方法
研究者可通过Hugging Face数据集库便捷加载SomaliWeb v1,只需执行`from datasets import load_dataset`后调用`load_dataset(\"khaledyusuf44/somaliweb-v1\")`即可获取训练与验证集。配套的BPE分词器可通过`tokenizers`库的`Tokenizer.from_file(\"tokenizer_somaliweb.json\")`加载。对于希望复现构建流程的用户,项目提供了完整的自包含代码库,在Python 3.9+环境中安装`requirements.txt`中的依赖后,依次运行`phase0_scripts`目录下的数据获取脚本与`pipeline`目录中的六个处理阶段脚本,即可从原始数据源重新构建整个语料库。所有中间产物与最终结果均按标准化目录结构存储于`data/`文件夹中。
背景与挑战
背景概述
随着自然语言处理技术的迅猛发展,低资源语言的语料库建设成为推动语言技术普惠化的关键瓶颈。SomaliWeb v1正是在这一背景下应运而生,由研究者Khaled Yusuf于近期开发并发布,旨在构建首个高质量、经过严格过滤的索马里语网络语料库。该数据集整合了HPLT v2、CC100以及索马里语维基百科三大公开来源,通过六阶段可复现的流水线处理,最终产出约3.03亿词元的精炼语料。其核心研究问题聚焦于如何系统性地消除低资源语言语料中的噪声、重复与非语言内容,从而为大语言模型的预训练提供可靠的基础。SomaliWeb v1的发布显著提升了索马里语在自然语言处理领域的资源丰度,为机器翻译、文本生成等下游任务奠定了坚实的数据基础。
当前挑战
在构建过程中,研究者面临多重挑战。首先,原始聚合语料中噪声极为严重,输入约1.37亿文档与5.88亿词元中,仅有59.7%最终保留,高达40.3%的内容被判定为重复、过短、非索马里语或低质量文本。其中,HPLT v2来源的字节级精确重复率达17.3%,且超过56.1%的文档存在可由ftfy修复的乱码问题。其次,语言识别环节面临模型选择困境,对比评测显示langdetect在索马里语上的F1值为0.884,优于GlotLID v3的0.829,但不同模型间的性能差异反映出低资源语言识别的高难度。此外,为提升分词效率,训练所得BPE分词器相较GPT-4的cl100k_base在FLORES-200索马里语测试集上实现了40.2%更低的融合度,展示了针对低资源语言进行分词优化的必要性。
常用场景
经典使用场景
SomaliWeb v1作为首个大规模、高质量索马里语网络语料库,其最经典的使用场景在于为低资源语言的自然语言处理研究提供预训练数据。研究人员可直接利用该语料库训练索马里语语言模型,或将其作为微调下游任务的基础语料,从而弥补非洲之角语言在深度学习领域的数据匮乏困境。该语料库经过六阶段严格清洗,涵盖字节级去重、近重复检测、语言验证及质量过滤,确保了约3.03亿token的高可用性,为索马里语的词嵌入、序列建模及迁移学习研究提供了坚实的数据基石。
解决学术问题
该数据集系统性地解决了低资源语言语料库建设中普遍存在的多重学术难题:一是原始网络文本中高达40.3%的噪声数据(包含重复、乱码、非目标语言及低质量内容)被有效去除;二是通过对比langdetect与GlotLID v3在索马里语上的语言检测性能(F1值0.884 vs 0.829),为语言识别基准选择提供了实证依据;三是通过训练专用BPE-16K分词器,实现了比GPT-4的cl100k_base低40.2%的词元化繁育率,显著提升了索马里语的编码效率,进而降低了预训练模型的计算开销与存储需求。
实际应用
在实际应用层面,SomaliWeb v1可直接赋能索马里语的机器翻译系统构建、新闻文本分类、情感分析及信息检索等任务。鉴于索马里兰和索马里地区约2000万人口的语言需求,该语料库可作为基础资源构建面向社交媒体的舆情监测工具、农村地区的语音助手文本后端,以及跨语言的数字图书馆索引系统。此外,其CC-BY-SA 4.0兼容性的许可协议,也为学术机构与非营利组织在非洲之角开展本地化自然语言处理产品研发提供了合法且透明的语料来源。
数据集最近研究
最新研究方向
当前低资源语言自然语言处理领域的研究前沿正聚焦于如何构建高质量、大规模且文化适配的预训练语料库,以突破数据稀缺的瓶颈。SomaliWeb v1便是在此背景下应运而生的代表性成果,它系统性地整合了HPLT v2、CC100与索马里语维基百科三大公开来源,通过六阶段可复现的流水线完成字节级去重、莫吉贝克修复、语言验证、近重复检测与质量过滤,最终精炼出约3.03亿词元的纯净语料库。该工作不仅揭示了HPLT v2中存在高达17.3%的精确重复与56.1%的可修复乱码文本,还通过实验证实了langdetect在索马里语识别上以0.884的F1值优于GlotLID v3,并开发出相比GPT-4 tokenizer词元化效率提升40.2%的BPE-16K分词器。这一开源工作为索马里语的大语言模型预训练奠定了坚实的数据基础,也为全球诸多濒危或低资源语言的语料库建设提供了可借鉴的工程范式与质量基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作