ruund-french-parallel-corpus
收藏Ruwund-French Parallel Dataset 概述
数据集基本信息
- 数据集名称:Ruwund-French Parallel Dataset
- 托管地址:https://huggingface.co/datasets/eliezermga/ruund-french-parallel-corpus
- 许可协议:cc-by-sa-4.0
- 规模类别:1K<n<10K
- 语言:Ruwund (Luwund) 与 法语
- 格式:TSV (Tab-Separated Values)
数据集简介
这是一个Ruwund(Luwund)语言与法语对齐的平行语料库,旨在用于自然语言处理(NLP)的研究与开发,特别是针对低资源语言。Ruwund是一种班图语,主要在刚果民主共和国和安哥拉使用。
数据集目标
- 提供一个干净的双语语料库(Ruwund <-> 法语)
- 支持机器翻译系统
- 促进语言保存
- 支持低资源NLP研究
数据结构与内容
- 每行包含一个Ruwund句子及其对应的法语翻译。
- 格式为:
ruwund_sentence<TAB>french_sentence
数据示例
Mu musumb winou mukez kumekanap kand chimunyik cha mwend wa kasu. Mukez kwovakanap kand mazu ma angatan ap ma angachik. In kwisak ey ading antu ajim a pa mangand. Wayipumbula antu a michid yawonsu nich ulaj wey! La lumière de la lampe ne brillera plus jamais chez toi; on ny entendra plus la voix des jeunes mariés. Tes marchands étaient les plus importants du monde, et par tes pratiques de magie tu as égaré tous les peuples.»
数据来源
- 宗教文本(例如,圣经摘录)
- 书面文件
- 手动对齐的翻译
使用方式
通过 Hugging Face Datasets 加载
python from datasets import load_dataset dataset = load_dataset("eliezermga/ruwund-french-parallel-corpus")
手动加载(TSV)
python with open("data.tsv", "r", encoding="utf-8") as f: for line in f: ruwund, french = line.strip().split(" ")
应用场景
- 机器翻译(Ruwund -> 法语,法语 -> Ruwund)
- 微调多语言模型(如 mBART, M2M100)
- 班图语的语言学分析
- 低资源NLP基准测试
数据集规模
- 句子对数量:待指定
- 格式:TSV
- 语言:Ruwund, 法语
局限性
- 数据集规模有限
- 可能存在对齐或翻译不一致
- 领域偏差(主要为宗教文本)
未来工作
- 增加数据集规模
- 添加验证和测试集划分
- 提高数据质量和对齐度
- 集成语音数据(音频+转录)
贡献
欢迎贡献:
- 添加新的句子对
- 纠正翻译
- 改进对齐
作者与致谢
- 作者:Eliezer Mununga (人工智能专业学生,项目:LugaYetu)
- 邮箱:eliezermunung@outlook.fr
- GitHub项目:https://github.com/Eliezermga/Lugayetu
- 贡献者:Christopher Mwanza(协助清理语料库)
- 特别感谢:Egla MUTALE(在语言资源数字化和扫描方面提供了宝贵贡献)
引用
bibtex @dataset{ruwund_french_dataset, author = {Mununga, Eliezer}, title = {Ruwund-French Parallel Dataset}, year = {2026}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/eliezermga/ruund-french-parallel-corpus} }




