five

AFRIDOC-MT|机器翻译数据集|低资源语言数据集

收藏
arXiv2025-01-11 更新2025-01-18 收录
机器翻译
低资源语言
下载链接:
https://github.com/masakhane-io/afridoc-mt
下载链接
链接失效反馈
资源简介:
AFRIDOC-MT是由Masakhane NLP团队创建的一个文档级多语言平行翻译数据集,旨在填补非洲低资源语言在文档级机器翻译领域的空白。该数据集包含605个文档,涵盖健康和信息技术两个领域,每个语言对包含10,000个句子。数据来源于Techpoint Africa和世界卫生组织的英文文章,经过人工翻译和严格的质量控制。AFRIDOC-MT不仅支持英语与非洲语言之间的翻译,还支持非洲语言之间的多向翻译。该数据集的应用领域包括机器翻译模型的训练与评估,特别是在文档级翻译任务中,旨在解决低资源语言在长文档翻译中的一致性和连贯性问题。
提供机构:
萨兰大学, DFKI GmbH, Inria, 巴黎, 法国, Mila, 麦吉尔大学 & 加拿大CIFAR AI主席, 伊巴丹大学, 尼日利亚, 日本国立信息学研究所, 坦桑尼亚Selcom, 伦敦帝国学院, 夸祖鲁-纳塔尔大学, 英国拉夫堡大学, 英国剑桥大学
创建时间:
2025-01-11
AI搜集汇总
数据集介绍
main_image_url
构建方式
AFRIDOC-MT数据集的构建基于从Techpoint Africa和世界卫生组织(WHO)网站上抓取的英文文章,涵盖健康和信息技术两个领域。文章经过人工翻译成五种非洲语言:阿姆哈拉语、豪萨语、斯瓦希里语、约鲁巴语和祖鲁语。为确保翻译质量,数据集经过自动化质量估计和人工审查,最终分为训练集、开发集和测试集,确保数据不泄露。
特点
AFRIDOC-MT数据集包含334篇健康领域和271篇信息技术领域的文档,每对语言包含10,000个句子。该数据集支持多向翻译,不仅涵盖英语与非洲语言之间的翻译,还支持非洲语言之间的互译。数据集的特点在于其文档级别的翻译任务,能够捕捉跨句子的上下文关系,提升翻译的一致性和连贯性。
使用方法
AFRIDOC-MT数据集可用于文档级和句子级的机器翻译任务。由于大多数模型的上下文长度限制,文档通常被分割为伪文档进行翻译,翻译后再重新对齐为完整文档。数据集的使用方法包括对神经机器翻译模型(NMT)和大语言模型(LLM)的评估,支持自动评估指标和人工评估代理(如GPT-4o)的结合使用。
背景与挑战
背景概述
AFRIDOC-MT是由Masakhane NLP团队与多个国际研究机构合作创建的文档级多语言平行翻译数据集,涵盖英语与五种非洲语言(阿姆哈拉语、豪萨语、斯瓦希里语、约鲁巴语和祖鲁语)之间的翻译。该数据集创建于2025年,旨在填补低资源非洲语言在文档级机器翻译领域的空白。AFRIDOC-MT包含334篇健康领域和271篇信息技术领域的新闻文档,所有文档均由人工从英语翻译成目标语言。该数据集不仅支持英语与非洲语言之间的翻译,还支持非洲语言之间的多向翻译。AFRIDOC-MT的推出为非洲语言的文档级翻译研究提供了重要的数据支持,推动了低资源语言机器翻译的发展。
当前挑战
AFRIDOC-MT面临的挑战主要包括两个方面:首先,文档级翻译本身具有较高的复杂性,尤其是在处理长文档时,模型需要捕捉跨句子的上下文信息,以保持翻译的一致性和连贯性。现有的翻译模型在处理长文档时往往受限于上下文长度,导致翻译质量下降。其次,构建AFRIDOC-MT数据集的过程中,翻译质量的控制和语言资源的稀缺性也是主要挑战。非洲语言的翻译资源相对匮乏,且部分语言具有独特的语言特征(如阿姆哈拉语的非拉丁字母和约鲁巴语的音调标记),这增加了翻译的难度。此外,翻译过程中还需要确保术语的一致性和领域适应性,尤其是在健康和信息技术等专业领域。
常用场景
经典使用场景
AFRIDOC-MT数据集主要用于文档级机器翻译任务,特别是在非洲语言的翻译领域。该数据集涵盖了英语与五种非洲语言(阿姆哈拉语、豪萨语、斯瓦希里语、约鲁巴语和祖鲁语)之间的多向翻译,适用于健康和信息技术领域的文档翻译。通过该数据集,研究人员可以训练和评估神经机器翻译(NMT)模型和大语言模型(LLM)在文档级翻译任务中的表现,尤其是在处理长文档时的上下文一致性。
实际应用
AFRIDOC-MT数据集在实际应用中具有广泛的价值。首先,它可以用于开发多语言翻译系统,特别是在非洲地区的健康和信息技术领域,帮助跨语言的信息传播和知识共享。其次,该数据集可以用于训练和优化翻译模型,提升非洲语言的翻译质量,促进这些语言在数字内容中的使用。此外,AFRIDOC-MT还可以用于评估大语言模型在低资源语言翻译中的表现,推动这些模型在非洲语言中的应用。
衍生相关工作
AFRIDOC-MT数据集衍生了一系列相关研究工作。首先,基于该数据集的研究推动了文档级神经机器翻译模型的发展,特别是在处理长文档时的上下文建模。其次,AFRIDOC-MT为低资源非洲语言的翻译任务提供了基准,促进了这些语言在机器翻译领域的研究。此外,该数据集还激发了对大语言模型在低资源语言翻译中的表现的研究,推动了这些模型在非洲语言中的应用和优化。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

CHIRPS v2.0

CHIRPS v2.0是一个全球降水数据集,提供高分辨率的降水估计,结合了卫星观测和气象站数据。数据集覆盖全球,时间范围从1981年至今,空间分辨率为0.05度。

www.chc.ucsb.edu 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录