xhosa-nlp-dataset
收藏🇿🇦 Xhosa NLP Dataset 数据集概述
基本信息
- 数据集名称: isiXhosa NLP Dataset
- 托管地址: https://huggingface.co/datasets/silvanosolutions/xhosa-nlp-dataset
- 语言: 科萨语 (xh)、英语 (en)
- 多语言性: 翻译
- 许可协议: 其他 (各源数据集保留其原始许可)
- 规模类别: 100K<n<1M
- 版本: 1.0.0
数据集构成
该数据集包含155,380条句子,分为单语(仅科萨语)和平行(科萨语↔英语)两个子集。
数据来源与原始记录数(清理和去重前)
| 来源 | 类型 | 原始记录数 | 领域 |
|---|---|---|---|
| OPUS-100 EN↔XH | 平行语料 | 267,920 | 通用网络文本 |
| CC-100 / Glot500 | 单语语料 | 50,000 | 通用网络文本 |
| Autshumato SA Gov | 平行语料 | 44,442 | 政府与法律 |
| Wikipedia isiXhosa | 单语语料 | 17,997 | 百科知识 |
| MasakhaNews | 单语语料 | 2,305 | 新闻文章 |
| 总计 | 382,664 |
类型细分(清理和去重后)
- 单语数据: 44,699 条记录
- 平行数据: 110,681 条记录
数据集划分
| 划分 | 总记录数 | 单语记录数 | 平行记录数 |
|---|---|---|---|
| 训练集 | 124,303 | 35,759 | 88,544 |
| 验证集 | 15,537 | 4,469 | 11,068 |
| 测试集 | 15,540 | 4,471 | 11,069 |
数据格式
数据集以清晰易用的JSON Lines (JSONL)格式打包。
单语记录
用于预训练和自监督学习的科萨语文本。 json { "id": "wiki_42_3", "text": "Umntu ngumntu ngabantu.", "source": "wikipedia_xh", "type": "monolingual", "domain": "general", "license": "CC-BY-SA" }
平行记录
对齐的科萨语和英语句子对,适用于翻译模型和跨语言迁移学习。 json { "id": "opus_12345", "xhosa": "Umntu ngumntu ngabantu.", "english": "A person is a person through other people.", "source": "opus100", "type": "parallel", "domain": "general", "license": "CC-BY" }
配置与加载
数据集提供两种配置:
monolingual: 单语数据parallel: 平行数据
可通过Hugging Face datasets库加载:
python
from datasets import load_dataset
monolingual_ds = load_dataset("silvanosolutions/xhosa-nlp-dataset", "monolingual", split="train")
parallel_ds = load_dataset("silvanosolutions/xhosa-nlp-dataset", "parallel", split="train")
数据源与许可
数据集聚合了多个语料库,数据点保留其原始许可。
| 数据源 | 原始许可 |
|---|---|
| Glot500 | CC-BY |
| OPUS-100 | CC-BY |
| Autshumato | CC-BY |
| Wikipedia | CC-BY-SA |
| MasakhaNews | CC-BY |
预期用途
- 语言建模: 训练或继续预训练科萨语语言模型。
- 多语言大语言模型: 微调多语言模型以提升科萨语理解能力。
- 机器翻译: 构建高质量的科萨语-英语双向翻译系统。
- 情感分析: 训练科萨语商业情感分类器和客户反馈分析器。
- 命名实体识别: 教导系统正确识别科萨语文本中的实体。
- 非洲商业科技: 为针对南非及更广泛非洲市场科萨语使用者的产品提供训练数据。
引用格式
bibtex @dataset{xhosa_nlp_dataset_2026, author = {Ntsika Silvano}, title = {Xhosa NLP Dataset: A Comprehensive IsiXhosa Text Corpus}, year = {2026}, version = {1.0.0}, publisher = {Hugging Face}, howpublished = {url{https://huggingface.co/datasets/silvanosolutions/xhosa-nlp-dataset}}, }




