Biomedical MQM Dataset

github2024-03-02 更新2024-05-31 收录

下载链接：

https://github.com/amazon-science/bio-mqm-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

The dataset is based on system submissions from 21 participants to the WMT21 bio translation shared task (Yeganova et al., 2021), which is in turn based on bilingual academic paper abstracts in the MEDLINE corpus retrieved from National Library of Medicine (NLM). Reference translations and MQM annotations were created on top of the shared task dataset by expert linguists with experience in the medical domain.

本数据集以21位参与者提交至WMT21生物医学翻译共享任务（Yeganova等人，2021）的系统译文为基础。该共享任务的语料源自从美国国家医学图书馆（National Library of Medicine, NLM）获取的MEDLINE医学文献语料库中的双语学术论文摘要。随后，拥有医学领域专业经验的语言学家基于该共享任务数据集，生成了参考译文与多维质量度量（Multi-Dimensional Quality Metric, MQM）标注。

创建时间：

2024-02-15

原始信息汇总

Biomedical MQM Dataset 概述

数据集描述

名称: Biomedical MQM Dataset
来源: 基于 WMT21 bio 翻译共享任务的系统提交（Yeganova et al., 2021），数据源自 MEDLINE 库的双语学术论文摘要。
内容: 包含11种语言对的生物医学领域多维质量指标（MQM）标注数据集。
目的: 用于研究机器翻译（MT）指标在训练和推理领域转移中的稳健性。

数据集构成

基础数据: 来自21个参与者的系统提交，基于MEDLINE库的双语学术论文摘要。
标注数据: 由具有医学领域经验的专家语言学家创建的参考翻译和MQM标注。

数据集使用

访问方式: 数据集可通过此链接访问。
引用信息:

@article{zouhar2024finetuned, title={Fine-Tuned Machine Translation Metrics Struggle in Unseen Domains}, author={Vilém Zouhar and Shuoyang Ding and Anna Currey and Tatyana Badeka and Jenyuan Wang and Brian Thompson}, year={2024}, eprint={2402.18747}, archivePrefix={arXiv}, journal={arXiv preprint arXiv:2306.07899}, url={https://arxiv.org/abs/2402.18747} }

数据集统计

测试集:
- 语言对: de-en, en-de, en-es, en-fr, en-ru, en-zh, es-en, fr-en, ru-en, zh-en
- 总行数: 19191
开发集:
- 语言对: br-en, de-en, en-de, en-es, en-fr, en-ru, en-zh, es-en, fr-en, ru-en, zh-en
- 总行数: 6069
通用测试集:
- 语言对: en-de, en-ru, zh-en
- 总行数: 59957

数据集应用

研究方向: 评估机器翻译指标在不同领域间的性能变化，特别是领域转移对性能的影响。
实验设置: 包括基线模型评估、MQM模型适应性训练、LM适应性实验等。

数据集版本

版本: v1
存储位置: ${ADAPTATION_ROOT}/data/raw/wmt21-biomed-mqm/

搜集汇总

数据集介绍

构建方式

Biomedical MQM Dataset的构建基于WMT21生物医学翻译共享任务的系统提交数据，该任务的数据来源于美国国家医学图书馆（NLM）的MEDLINE语料库中的双语学术论文摘要。在此基础上，由具有医学领域背景的专业语言学家对参考翻译进行了多维质量指标（MQM）的标注。该数据集涵盖了11种语言对，旨在研究在训练和推理之间存在领域转移时，基于人工生成的机器翻译质量判断进行微调的机器翻译（MT）指标的鲁棒性。

特点

Biomedical MQM Dataset的特点在于其广泛的多维质量指标（MQM）标注，覆盖了生物医学领域的11种语言对。该数据集不仅提供了丰富的翻译质量评估数据，还特别关注了领域转移对机器翻译指标性能的影响。通过对比微调指标与未微调的预训练指标，研究发现微调指标在未见领域中的表现显著下降，这为机器翻译指标的领域适应性提供了重要的实证依据。

使用方法

使用Biomedical MQM Dataset时，首先需要安装相关的Python包，并设置环境变量。数据集的复制和结果重现可以通过运行一系列脚本来完成，包括数据下载、处理、分割以及模型训练和评估。用户可以根据需要选择不同的实验脚本，例如基线模型评估、MQM适应训练、生物医学数据微调等。此外，数据集还提供了详细的代码结构和执行指南，帮助用户快速上手并进行深入的研究。

背景与挑战

背景概述

Biomedical MQM Dataset是由Vilém Zouhar等研究人员于2024年提出的一个多维质量指标（MQM）标注数据集，涵盖了生物医学领域的11种语言对。该数据集基于WMT21生物医学翻译共享任务的系统提交，数据来源于美国国家医学图书馆（NLM）的MEDLINE语料库中的双语学术论文摘要。研究人员通过该数据集探讨了基于人类生成的机器翻译质量判断进行微调的机器翻译（MT）指标在训练与推理领域转移中的鲁棒性。研究发现，微调后的指标在未见领域中的表现显著下降，相较于依赖表面形式的指标以及未在MT质量判断上微调的预训练指标，表现更为逊色。该数据集为生物医学领域的机器翻译质量评估提供了重要的基准资源。

当前挑战

Biomedical MQM Dataset在构建和应用过程中面临多重挑战。首先，该数据集旨在解决机器翻译质量评估在领域转移中的鲁棒性问题，尤其是在生物医学这一高度专业化的领域。由于生物医学文本的复杂性和专业性，传统的机器翻译指标往往难以准确捕捉翻译质量，尤其是在未见领域中表现不佳。其次，数据集的构建过程中，研究人员需要处理来自不同语言对的系统提交，并依赖具有医学背景的语言学家进行参考翻译和MQM标注，这一过程不仅耗时且对标注者的专业知识要求极高。此外，数据集的规模较大，涵盖了11种语言对，处理和分析这些数据需要强大的计算资源，尤其是在训练和评估模型时，GPU内存需求较高，进一步增加了数据集的构建和应用难度。

常用场景

经典使用场景

Biomedical MQM数据集在机器翻译（MT）领域中被广泛用于评估翻译质量，特别是在生物医学文本的翻译任务中。该数据集基于WMT21生物医学翻译共享任务的系统提交，涵盖了11种语言对的翻译结果，并附有专家语言学家的多维质量指标（MQM）注释。研究人员利用该数据集来测试和验证不同机器翻译模型在生物医学领域的表现，尤其是在面对未见过的领域时，模型的鲁棒性和适应性。

实际应用

在实际应用中，Biomedical MQM数据集被广泛用于生物医学文献的翻译质量评估。例如，在医学研究领域，研究人员需要将大量的学术论文摘要从一种语言翻译成另一种语言，以确保信息的准确传递。该数据集为这些翻译任务提供了高质量的参考翻译和详细的错误注释，帮助翻译系统在生物医学领域实现更高的准确性和一致性。此外，该数据集还可用于开发自动翻译质量评估工具，进一步提升翻译效率。

衍生相关工作

Biomedical MQM数据集衍生了一系列相关研究，特别是在机器翻译质量评估和领域适应方面。例如，基于该数据集的研究提出了新的翻译质量评估指标，如COMET和BERTScore，这些指标在生物医学领域的翻译任务中表现出色。此外，该数据集还推动了跨领域机器翻译模型的研究，尤其是在如何通过微调和预训练策略来提升模型在未见领域中的表现。这些研究不仅丰富了机器翻译领域的理论框架，也为实际应用提供了有力的技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集