five

OpenWHO

收藏
arXiv2025-09-23 更新2025-09-25 收录
下载链接:
https://www.scrapy.org
下载链接
链接失效反馈
官方服务:
资源简介:
OpenWHO数据集是由世界卫生组织(WHO)的多语言电子学习平台提供的高质量、专业翻译的健康翻译领域文档级平行语料库。该语料库涵盖了超过20种语言,其中包括9种低资源语言,如亚美尼亚语、格鲁吉亚语和僧伽罗语。OpenWHO数据集包含2978份文档和26824个平行句子,内容涵盖公共卫生、疾病应对、疫苗接种、感染预防和紧急准备等多个主题。所有内容均由WHO专家及其全球合作伙伴机构撰写和审查,确保信息的权威性、准确性和时效性。OpenWHO数据集旨在为低资源语言的健康机器翻译提供评估基准,促进该领域的研究。

The OpenWHO Dataset is a high-quality, professionally translated document-level parallel corpus for the healthcare translation domain, provided by the multilingual e-learning platform of the World Health Organization (WHO). This corpus covers more than 20 languages, including 9 low-resource languages such as Armenian, Georgian, and Sinhala. The OpenWHO Dataset contains 2978 documents and 26824 parallel sentences, with content covering various topics including public health, disease response, vaccination, infection prevention, and emergency preparedness. All content is written and reviewed by WHO experts and their global partner institutions, ensuring the authority, accuracy, and timeliness of the information. The OpenWHO Dataset aims to provide an evaluation benchmark for healthcare machine translation for low-resource languages, and promote research in this field.
提供机构:
墨尔本大学计算与信息系统学院, 澳大利亚国立大学计算学院, 澳大利亚国立大学医学院心理学系
创建时间:
2025-08-22
搜集汇总
数据集介绍
main_image_url
构建方式
OpenWHO数据集构建依托世界卫生组织多语言在线学习平台,采用专家撰写且经过专业翻译的公共卫生教育材料。通过授权网络爬虫技术提取课程页面原始内容,并运用启发式过滤器剔除视频为主或低价值文本,确保语料质量。基于平台结构化特征,通过语言代码与课程标识符实现文档级精准对齐,最终形成2978组平行文档。在句子级对齐环节,结合pysbd与stanza分词工具进行多语言边界识别,并利用LaBSE语义嵌入模型完成句子匹配,经过重复项与短文本过滤后得到26824对高质量平行句对。
特点
该数据集核心价值在于其权威性与专业性,所有内容均源自WHO专家审核的公共卫生指南,涵盖感染预防、疫苗接种等20余个专业领域。语言覆盖呈现显著多样性,包含9种低资源语言如阿尔巴尼亚语、格鲁吉亚语等,部分语言具备非拉丁文字特征。数据层级结构完整,同时提供文档级与句子级平行语料,支持上下文感知的机器翻译研究。独特优势在于其内容受登录屏障保护,有效规避了主流大语言模型训练数据的污染风险,为低资源语言医疗翻译评估提供纯净基准。
使用方法
研究者可基于文档级平行语料开展上下文感知的机器翻译实验,通过对比句子级、文档级及滑动窗口等翻译策略,探究大语言模型在专业领域的语境利用效能。数据集支持传统神经机器翻译模型与当代大语言模型的性能比对,特别适用于低资源语言在专业术语一致性、篇章连贯性等方面的评估。使用时可依据课程主题进行领域细分,例如聚焦手部卫生感染控制课程进行跨语言对比分析。数据采用CC BY-NC 4.0许可,支持非商业用途的学术研究,需遵循WHO的内容引用规范。
背景与挑战
背景概述
在机器翻译领域,健康医疗因其广泛部署需求和领域专有词汇而成为高风险应用场景。OpenWHO数据集由墨尔本大学与澳大利亚国立大学研究团队于2025年创建,旨在填补低资源语言在健康领域机器翻译评估数据的空白。该数据集源自世界卫生组织2017至2024年运营的在线学习平台,包含2,978份文档和26,824句平行语料,涵盖20余种语言其中9种为低资源语言。其核心价值在于提供专家撰写、专业翻译的权威内容,为健康领域的机器翻译研究提供了高质量基准。
当前挑战
健康领域机器翻译面临术语准确性与临床风险的双重挑战,低资源语言更存在训练数据稀缺和语言结构差异等难题。OpenWHO在构建过程中需克服多语言文档对齐的技术障碍,特别是对于亚美尼亚语等稀有文字的处理。数据采集时需通过登录屏障规避网络爬虫污染,并采用LaBSE语义相似度算法实现跨语言句子级对齐。此外,数据分布不均衡问题限制了跨语言对比研究的深度,而专业医疗内容的翻译质量验证也需要更精细的评估机制。
常用场景
经典使用场景
在公共卫生信息传播领域,OpenWHO数据集为低资源语言的机器翻译评估提供了关键基准。该数据集通过世界卫生组织专业翻译的电子学习材料,构建了涵盖20多种语言的文档级平行语料库,其中包含9种低资源语言。研究人员利用这一资源系统评估了大语言模型与传统机器翻译模型在健康领域的表现,发现文档级上下文能显著提升专业术语的一致性和翻译连贯性。
解决学术问题
OpenWHO有效解决了健康领域低资源机器翻译评估数据匮乏的学术难题。该数据集填补了TICO-19等现有资源在主题广度和时效性上的局限,为研究文档级翻译在专业领域的效用提供了实验基础。通过对比分析不同上下文策略的翻译效果,该数据集揭示了模型能力与领域复杂度对上下文利用效率的交互影响,推动了低资源机器翻译理论框架的完善。
衍生相关工作
OpenWHO催生了多项关于低资源语言文档级翻译的深入研究。例如Enis和Hopkins(2024)基于类似数据验证了Claude模型在约鲁巴语翻译中的文档级优势,Zebaze等人(2025)则探索了组合式翻译方法。这些工作共同拓展了专业领域低资源翻译的技术路径,为后续研究提供了方法论参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作