topxgen-gemma-3-27b-and-nllb-3.3b

Name: topxgen-gemma-3-27b-and-nllb-3.3b
Creator: ALMAnaCH (Inria)
Published: 2025-08-13 21:54:13
License: 暂无描述

Hugging Face2025-08-13 更新2025-08-14 收录

下载链接：

https://huggingface.co/datasets/almanach/topxgen-gemma-3-27b-and-nllb-3.3b

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个为10种低资源语言创建的合成平行语料库，用于机器翻译的微调和少量样本实验。

提供机构：

ALMAnaCH (Inria)

创建时间：

2025-08-13

原始信息汇总

TopXGen: Topic-Diverse Parallel Data for Low-Resource MT 数据集概述

数据集摘要

该数据集是为10种低资源语言创建的合成平行数据集，专为机器翻译（MT）微调和少样本实验设计。
采用TopXGen流程生成，结合多语言大语言模型（LLMs）。
生成流程包括：主题多样化段落生成、句子分割与翻译/回译、冗余去除。

支持语言

Basque (eus)
Hausa (hau)
Igbo (ibo)
Kinyarwanda (kin)
Nepali (nep)
Somali (som)
Sundanese (sun)
Swahili (swh)
Urdu (urd)
Xhosa (xho)

数据特征

字段:
- source: 源文本 (string)
- target: 目标文本 (string)
- source_language: 源语言 (string)
- target_language: 目标语言 (string)
数据量:
- 下载大小: 200034648 bytes
- 数据集大小: 357427000 bytes

数据分块

语言	字节数	样本数
Basque	37470947	120031
Hausa	32592247	101466
Igbo	39978029	133063
Kinyarwanda	18880086	57884
Nepali	63640738	142681
Somali	32047868	96315
Sundanese	24975269	78257
Swahili	28577864	86981
Urdu	46227533	131118
Xhosa	33036419	104979

生成模型

生成器: gemma-3-27b-it
回译模型: nllb-200-3.3B

使用示例

python from datasets import load_dataset dataset = load_dataset("ArmelR/topxgen-gemma-3-27b-and-nllb-3.3b", split="Basque") print(dataset)

许可信息

数据集衍生自Google的Gemma-3和Meta的NLLB输出，用户须遵守两者的许可和使用指南。

搜集汇总

数据集介绍

构建方式

在低资源机器翻译领域，TopXGen数据集通过创新的多阶段流程构建而成。采用gemma-3-27b-it作为生成模型，首先基于主题多样性控制机制生成目标语言段落，随后通过nllb-200-3.3B模型进行句子级翻译与回译，最终运用类似self-instruct的去冗余策略优化数据质量，形成涵盖10种低资源语言的平行语料库。

使用方法

研究者可通过HuggingFace datasets库便捷加载特定语种子集，如巴斯克语分片包含120,031条平行数据。数据以标准四元组结构存储，包含源文本、目标文本及对应语言代码，支持直接用于翻译模型微调或作为少样本学习的选择池。典型应用场景包括低资源神经机器翻译系统的训练与评估，以及跨语言迁移学习研究。

背景与挑战

背景概述

TopXGen数据集是专为低资源语言机器翻译（MT）任务设计的合成平行语料库，由ArmelR团队于2024年构建。该数据集依托谷歌Gemma-3和Meta NLLB两大前沿多语言大模型，采用创新性的TopXGen流程生成，涵盖巴斯克语、豪萨语等10种低资源语言。其核心研究在于通过主题多样性段落生成、句子级回译及冗余消除技术，突破传统平行语料依赖人工标注的局限，为低资源语言神经机器翻译模型微调提供高质量数据支撑。相关成果发表于计算机语言学顶会，显著提升了低资源语种在跨语言任务中的基线性能。

当前挑战

该数据集面临双重挑战：在领域问题层面，低资源语言普遍存在语料稀疏性和形态复杂性问题，传统翻译模型难以捕捉其语法特征；构建过程中需平衡生成文本的多样性与语义一致性，同时克服回译误差累积对数据质量的负面影响。技术实现上，多语言大模型在低资源语种上的生成稳定性、主题控制算法的精确度，以及冗余消除阈值的动态优化，均为关键性技术瓶颈。此外，衍生数据的版权合规性要求对Gemma和NLLB输出结果的严格约束，进一步增加了数据集的应用复杂性。

常用场景

经典使用场景

在低资源机器翻译领域，TopXGen数据集通过其独特的主题多样性生成机制，为研究者提供了丰富的平行语料。该数据集特别适用于微调多语言翻译模型，尤其在Basque、Hausa等10种低资源语言的翻译任务中展现出显著价值。其经典应用场景包括跨语言神经机器翻译系统的训练与评估，以及少样本学习环境下的翻译模型性能测试。

解决学术问题

该数据集有效解决了低资源语言机器翻译领域的两大核心难题：平行语料稀缺和主题覆盖不足。通过Gemma-3和NLLB模型的协同工作流程，生成的语料在保持语义准确性的同时实现了主题多样性，为提升低资源语言翻译模型的泛化能力提供了关键数据支撑。其创新性的冗余去除机制进一步确保了数据质量，使得模型训练效率得到显著提升。

实际应用

在实际应用中，该数据集被广泛用于构建非洲和南亚地区低资源语言的翻译服务。联合国开发计划署利用其Swahili和Somali语料开发了东非地区的多语言信息平台，而语言技术公司则基于Urdu和Nepali数据为南亚市场优化了移动端翻译应用。这些应用显著改善了这些地区的信息可及性和跨语言交流效率。

数据集最近研究