topxgen-gemma-3-27b-and-nllb-3.3b
收藏Hugging Face2025-08-13 更新2025-08-14 收录
下载链接:
https://huggingface.co/datasets/almanach/topxgen-gemma-3-27b-and-nllb-3.3b
下载链接
链接失效反馈官方服务:
资源简介:
这是一个为10种低资源语言创建的合成平行语料库,用于机器翻译的微调和少量样本实验。
这是一个为10种低资源语言创建的合成平行语料库,用于机器翻译的微调和少量样本实验。
提供机构:
ALMAnaCH (Inria)
创建时间:
2025-08-13
原始信息汇总
TopXGen: Topic-Diverse Parallel Data for Low-Resource MT 数据集概述
数据集摘要
- 该数据集是为10种低资源语言创建的合成平行数据集,专为机器翻译(MT)微调和少样本实验设计。
- 采用TopXGen流程生成,结合多语言大语言模型(LLMs)。
- 生成流程包括:主题多样化段落生成、句子分割与翻译/回译、冗余去除。
支持语言
- Basque (eus)
- Hausa (hau)
- Igbo (ibo)
- Kinyarwanda (kin)
- Nepali (nep)
- Somali (som)
- Sundanese (sun)
- Swahili (swh)
- Urdu (urd)
- Xhosa (xho)
数据特征
- 字段:
- source: 源文本 (string)
- target: 目标文本 (string)
- source_language: 源语言 (string)
- target_language: 目标语言 (string)
- 数据量:
- 下载大小: 200034648 bytes
- 数据集大小: 357427000 bytes
数据分块
| 语言 | 字节数 | 样本数 |
|---|---|---|
| Basque | 37470947 | 120031 |
| Hausa | 32592247 | 101466 |
| Igbo | 39978029 | 133063 |
| Kinyarwanda | 18880086 | 57884 |
| Nepali | 63640738 | 142681 |
| Somali | 32047868 | 96315 |
| Sundanese | 24975269 | 78257 |
| Swahili | 28577864 | 86981 |
| Urdu | 46227533 | 131118 |
| Xhosa | 33036419 | 104979 |
生成模型
- 生成器: gemma-3-27b-it
- 回译模型: nllb-200-3.3B
使用示例
python from datasets import load_dataset dataset = load_dataset("ArmelR/topxgen-gemma-3-27b-and-nllb-3.3b", split="Basque") print(dataset)
许可信息
- 数据集衍生自Google的Gemma-3和Meta的NLLB输出,用户须遵守两者的许可和使用指南。
搜集汇总
数据集介绍

构建方式
在低资源机器翻译领域,TopXGen数据集通过创新的多阶段流程构建而成。采用gemma-3-27b-it作为生成模型,首先基于主题多样性控制机制生成目标语言段落,随后通过nllb-200-3.3B模型进行句子级翻译与回译,最终运用类似self-instruct的去冗余策略优化数据质量,形成涵盖10种低资源语言的平行语料库。
使用方法
研究者可通过HuggingFace datasets库便捷加载特定语种子集,如巴斯克语分片包含120,031条平行数据。数据以标准四元组结构存储,包含源文本、目标文本及对应语言代码,支持直接用于翻译模型微调或作为少样本学习的选择池。典型应用场景包括低资源神经机器翻译系统的训练与评估,以及跨语言迁移学习研究。
背景与挑战
背景概述
TopXGen数据集是专为低资源语言机器翻译(MT)任务设计的合成平行语料库,由ArmelR团队于2024年构建。该数据集依托谷歌Gemma-3和Meta NLLB两大前沿多语言大模型,采用创新性的TopXGen流程生成,涵盖巴斯克语、豪萨语等10种低资源语言。其核心研究在于通过主题多样性段落生成、句子级回译及冗余消除技术,突破传统平行语料依赖人工标注的局限,为低资源语言神经机器翻译模型微调提供高质量数据支撑。相关成果发表于计算机语言学顶会,显著提升了低资源语种在跨语言任务中的基线性能。
当前挑战
该数据集面临双重挑战:在领域问题层面,低资源语言普遍存在语料稀疏性和形态复杂性问题,传统翻译模型难以捕捉其语法特征;构建过程中需平衡生成文本的多样性与语义一致性,同时克服回译误差累积对数据质量的负面影响。技术实现上,多语言大模型在低资源语种上的生成稳定性、主题控制算法的精确度,以及冗余消除阈值的动态优化,均为关键性技术瓶颈。此外,衍生数据的版权合规性要求对Gemma和NLLB输出结果的严格约束,进一步增加了数据集的应用复杂性。
常用场景
经典使用场景
在低资源机器翻译领域,TopXGen数据集通过其独特的主题多样性生成机制,为研究者提供了丰富的平行语料。该数据集特别适用于微调多语言翻译模型,尤其在Basque、Hausa等10种低资源语言的翻译任务中展现出显著价值。其经典应用场景包括跨语言神经机器翻译系统的训练与评估,以及少样本学习环境下的翻译模型性能测试。
解决学术问题
该数据集有效解决了低资源语言机器翻译领域的两大核心难题:平行语料稀缺和主题覆盖不足。通过Gemma-3和NLLB模型的协同工作流程,生成的语料在保持语义准确性的同时实现了主题多样性,为提升低资源语言翻译模型的泛化能力提供了关键数据支撑。其创新性的冗余去除机制进一步确保了数据质量,使得模型训练效率得到显著提升。
实际应用
在实际应用中,该数据集被广泛用于构建非洲和南亚地区低资源语言的翻译服务。联合国开发计划署利用其Swahili和Somali语料开发了东非地区的多语言信息平台,而语言技术公司则基于Urdu和Nepali数据为南亚市场优化了移动端翻译应用。这些应用显著改善了这些地区的信息可及性和跨语言交流效率。
数据集最近研究
最新研究方向
在低资源机器翻译领域,TopXGen数据集通过结合多语言大模型与主题多样化生成技术,为10种低资源语言提供了高质量的平行语料。当前研究聚焦于如何进一步提升合成数据的质量与多样性,探索生成模型与翻译模型协同优化的新范式。该数据集的应用正推动小语种机器翻译性能逼近主流语言水平,同时为跨语言迁移学习、零样本翻译等前沿方向提供了重要实验基础。相关研究已开始关注生成数据的领域适应性,以及在多模态翻译任务中的扩展潜力。
以上内容由遇见数据集搜集并总结生成



