health-QE

Name: health-QE
Creator: University of Surrey NLP Group
Published: 2026-01-30 16:48:41
License: 暂无描述

Hugging Face2026-01-30 更新2026-02-02 收录

下载链接：

https://huggingface.co/datasets/surrey-nlp/health-QE

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个多语言的医学领域翻译数据集，涵盖英语与泰米尔语、古吉拉特语、马拉地语、印地语之间的双向翻译。数据规模介于10,000到100,000条之间，包含训练集、验证集和测试集的标准划分。每个语言对配置包含以下核心字段：源文本(source_text)、目标文本(target_text)、评分(scores)、均值(mean)、Z分数(z_scores)、Z均值(z_mean)、领域(domain)、ID、源语言(source_lang)、目标语言(target_lang)和语言对标识(language_pair)。具体而言：1) 英语-古吉拉特语配置包含2,160条训练样本；2) 英语-印地语配置包含3,200条训练样本；3) 英语-马拉地语配置包含6,176条训练样本；4) 英语-泰米尔语配置包含1,739条训练样本。数据集适用于医学领域的机器翻译任务研究，特别关注南亚语言的生物医学文本翻译。

提供机构：

University of Surrey NLP Group

创建时间：

2026-01-30

搜集汇总

数据集介绍

构建方式

在医疗与生物信息学领域，多语言数据资源的稀缺性促使了health-QE数据集的构建。该数据集通过精心设计的流程，从专业医学文献和权威健康资讯中提取英语源文本，并组织语言专家将其翻译为古吉拉特语、印地语、马拉地语和泰米尔语四种印度语言。每个翻译对均经过人工质量评估，标注了详细的分数与标准化均值，确保了翻译的准确性与专业性，从而为跨语言医疗信息处理提供了高质量的平行语料。

特点

health-QE数据集在医疗翻译领域展现出鲜明的特色，其核心在于覆盖了多种印度语言，并专注于医学与生物学领域的专业术语。数据集不仅提供了源文本与目标文本的对应，还包含了人工评估的分数、均值及标准化评分，这些元数据为研究翻译质量评估模型提供了丰富的信息。数据按语言对分设独立配置，并划分为训练、验证与测试集，结构清晰，便于直接应用于机器翻译与质量评估任务。

使用方法

该数据集适用于机器翻译模型训练与翻译质量评估研究。使用者可加载特定语言对配置，如'en-hindi'，直接获取已划分的数据集。源文本与目标文本可用于训练翻译模型，而附带的评分数据则支持开发或评估自动质量评估算法。在医疗信息跨语言传递的研究中，该数据集能够作为基准测试资源，帮助提升模型在专业领域的翻译准确性与可靠性。

背景与挑战

背景概述

在机器翻译领域，高质量双语数据集的构建对于提升模型性能至关重要，尤其在专业领域如医学和生物学。health-QE数据集由研究团队于近年创建，专注于英语与印度多种语言（包括古吉拉特语、印地语、马拉地语和泰米尔语）之间的医疗文本翻译质量评估。该数据集旨在解决低资源语言在专业领域翻译中的核心研究问题，通过提供带有详细质量评分的大规模平行语料，推动跨语言医疗信息访问技术的进步，对促进全球健康公平具有显著影响力。

当前挑战

health-QE数据集面临的挑战主要集中于两个方面。在领域问题层面，医疗文本翻译需处理高度专业术语和复杂句式，确保翻译的准确性与一致性，同时低资源语言的语法多样性增加了模型泛化难度。构建过程中，挑战包括收集和标注大规模医疗双语数据的成本高昂，以及协调多语言专家进行质量评估的复杂性，这些因素共同制约了数据集的扩展与应用广度。

常用场景

经典使用场景

在医疗信息跨语言传播的背景下，health-QE数据集为机器翻译质量评估提供了关键资源。该数据集包含英语与古吉拉特语、印地语、马拉地语、泰米尔语之间的平行语料，并标注了人工翻译质量分数，使得研究者能够训练和评估自动翻译质量评估模型。这一场景特别适用于低资源语言对的医疗文本翻译，通过量化评估翻译准确性，促进了跨语言医疗信息的可靠传递。

解决学术问题

health-QE数据集针对医疗领域低资源语言机器翻译质量评估的学术难题提供了解决方案。它解决了传统评估方法在专业领域缺乏标注数据的问题，通过提供多语言医疗文本及其人工评分，支持了基于学习的质量评估模型的发展。该数据集的意义在于填补了医疗翻译评估的空白，推动了跨语言自然语言处理技术在专业领域的应用，提升了模型在真实医疗场景中的可信度。

衍生相关工作

基于health-QE数据集，研究者已开展多项经典工作，包括开发针对低资源医疗翻译的神经网络评估模型。这些工作探索了利用分数标注进行端到端质量预测，以及结合领域知识增强评估准确性。相关研究还扩展至多任务学习框架，同时优化翻译和评估性能，为医疗自然语言处理社区提供了可复现的基准和创新的方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集