allenai/wmt22_african
收藏Hugging Face2022-08-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/allenai/wmt22_african
下载链接
链接失效反馈官方服务:
资源简介:
该数据集基于Meta AI发布的非洲语言双语文本元数据创建,包含了248对非洲语言的双语文本。这些数据是为2022年WMT共享任务中的大规模机器翻译评估准备的。数据集的结构包括每个语言对的压缩文本文件,每个文件包含平行句子。数据集未进行训练、开发和测试的划分。数据集的创建过程涉及从Common Crawl和ParaCrawl中通过LASER编码器自动识别平行句子。数据集的使用对社会有积极影响,因为它为许多低资源语言的NLP系统提供了训练数据。
This dataset is built upon the bilingual text metadata for African languages released by Meta AI, and includes 248 bilingual text pairs between African languages. It was curated for large-scale machine translation evaluation in the 2022 WMT Shared Task. The dataset is structured as compressed text files for each language pair, with each file containing parallel sentence pairs. No train-dev-test split has been applied to this dataset. The dataset was created by automatically identifying parallel sentences from Common Crawl and ParaCrawl using the LASER encoder. The utilization of this dataset brings positive societal impacts, as it provides training data for NLP systems targeting numerous low-resource languages.
提供机构:
allenai
原始信息汇总
数据集概述
数据集描述
- 数据集名称: allenai/wmt22_african
- 数据集概要: 该数据集基于Meta AI发布的元数据,包含248对非洲语言的并行文本,用于2022 WMT非洲语言大规模机器翻译评估共享任务。
- 支持的任务: 该数据集是2022 WMT非洲语言大规模机器翻译评估共享任务中受限赛道允许的资源之一。
- 语言: 包含25种非洲语言及英语和法语。
数据集结构
- 数据实例: 包含248种语言对。
- 数据字段: 每个语言对实例包含translation(句子对)、laser_score、source_sentence_lid、target_sentence_lid。
- 数据分割: 数据未分割为训练集、验证集和测试集。
数据集创建
- 采集理由: 使用Language-Agnostic Sentence Representation (LASER)编码器从Common Crawl和ParaCrawl的单语数据中识别并行句子。
- 源数据: 单语数据来自Common Crawl和ParaCrawl。
- 注释: 数据未经人工注释,使用LASER自动识别并行文本。
使用数据注意事项
- 社会影响: 该数据集为多种低资源语言的自然语言处理提供了训练数据。
- 偏见讨论: 数据中的偏见尚未被研究。
附加信息
- 许可证: 数据集根据ODC-BY许可发布。
- 引用信息: 引用时请参考NLLB Team et al, No Language Left Behind: Scaling Human-Centered Machine Translation, Arxiv, 2022。
搜集汇总
数据集介绍

构建方式
在机器翻译领域,针对非洲语言资源稀缺的现状,该数据集通过自动化方法构建而成。其核心流程基于Meta AI发布的元数据,利用语言无关句子表征(LASER)编码器,从Common Crawl和ParaCrawl的大规模单语语料中自动挖掘平行句对。整个过程无需人工标注,完全依赖算法识别,最终生成了涵盖248个语言方向的平行文本集合,为低资源语言的自然语言处理任务提供了数据基础。
特点
本数据集显著特点在于其广泛覆盖了24种非洲本土语言,并与英语、法语等通用语构成配对,极大丰富了非洲语言的机器翻译资源。每个数据实例不仅包含平行句对,还附有LASER相似度分数及语言分类概率,为模型训练与评估提供了多维度的质量参考。数据以按语言对分列的压缩文本文件形式组织,便于按需调用,但其未预设训练、验证与测试的标准划分,要求使用者根据具体研究目标自行分割。
使用方法
使用者可通过两种便捷途径获取数据:一是利用Hugging Face的datasets库,通过Python代码直接加载;二是通过Git LFS克隆整个仓库。数据加载后,每个样本以字典形式呈现,包含‘translation’字段的平行句对及相关的质量评分。该数据集专为2022年WMT非洲语言大规模机器翻译评估任务的受限赛道设计,适用于训练和评估多语言翻译模型,尤其有助于提升低资源语言翻译系统的性能。
背景与挑战
背景概述
在自然语言处理领域,非洲语言机器翻译长期面临资源匮乏的困境,制约了语言技术的普及与公平发展。为应对这一挑战,艾伦人工智能研究所于2022年推出了WMT22_African数据集,该数据集依托Meta AI发布的LASER编码器挖掘的双语文本构建,涵盖了包括阿非利卡语、阿姆哈拉语、斯瓦希里语等在内的24种非洲语言与英语、法语之间的248个翻译对。作为2022年WMT大规模机器翻译评估共享任务的核心资源,该数据集旨在推动低资源语言机器翻译模型的研发,促进语言技术的包容性进步,为全球语言多样性保护提供了关键的数据支撑。
当前挑战
WMT22_African数据集致力于解决低资源非洲语言机器翻译的领域挑战,这些语言普遍缺乏高质量平行语料,导致翻译模型在语义准确性和文化适应性上表现不足。在构建过程中,数据集面临多重挑战:首先,从Common Crawl和ParaCrawl等网络文本中自动挖掘平行句对,依赖LASER编码器的跨语言表示能力,可能引入噪声与对齐误差;其次,非洲语言方言变体丰富,文本标准化程度低,增加了数据清洗与归一化的复杂度;此外,数据集中未进行人工标注与偏差分析,可能隐含源数据的文化或社会偏见,影响模型在真实场景中的泛化性能。
常用场景
经典使用场景
在机器翻译领域,非洲语言资源长期匮乏,阻碍了跨语言信息交流的技术发展。allenai/wmt22_african数据集作为WMT2022共享任务的核心资源,其经典使用场景集中于大规模多语言神经机器翻译模型的训练与评估。研究者利用该数据集涵盖的248个语言对,能够系统性地构建和优化从英语、法语到多种非洲本土语言的翻译系统,特别是在低资源语言场景下,该数据集为模型提供了宝贵的平行语料,支撑了从基础翻译质量到跨语言迁移能力的全面评测。
实际应用
在实际应用层面,该数据集支撑了面向非洲地区的多语言服务开发。例如,在新闻传播、教育资料本地化、公共卫生信息普及等领域,基于该数据集训练的翻译系统能够将国际内容转化为当地语言,促进知识获取与文化保存。同时,它为政府机构、非营利组织及科技公司提供了工具,以构建包容性的数字平台,改善非洲社区的信息可及性,并在紧急情况下实现快速的多语言沟通,从而在现实世界中推动社会包容与发展。
衍生相关工作
围绕该数据集,已衍生出一系列经典研究工作。最显著的是Meta AI的“No Language Left Behind”项目,该项目利用类似语料训练了涵盖数百种语言的大规模多语言翻译模型。此外,许多学术团队以此为基础,探索了低资源语言下的领域适应、噪声过滤及数据增强技术,并在WMT共享任务中提出了创新的评估框架。这些工作共同深化了对非洲语言机器翻译的理解,推动了多语言NLP模型的可扩展性与鲁棒性研究。
以上内容由遇见数据集搜集并总结生成



