five

NEJM-enzh|生物医学数据集|机器翻译数据集

收藏
arXiv2020-05-19 更新2024-06-21 收录
生物医学
机器翻译
下载链接:
https://github.com/boxiangliu/med_translation
下载链接
链接失效反馈
资源简介:
NEJM-enzh是首个针对生物医学领域的英汉平行语料库,由百度研究团队开发。该数据集包含约100,000句对,总计约3,000,000个英汉词汇,来源于《新英格兰医学杂志》。数据集的创建过程涉及网页爬取、文本提取、语言匹配、句子分割和句子对齐等步骤。NEJM-enzh数据集主要应用于机器翻译领域,旨在提高生物医学文献的翻译质量和准确性,解决生物医学领域翻译资源不足的问题。
提供机构:
百度研究
创建时间:
2020-05-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
NEJM-enzh数据集的构建过程始于从《新英格兰医学杂志》(NEJM)官方网站爬取中英文对照的文章。通过Selenium工具自动化抓取网页内容,确保段落顺序的一致性,并移除图表、表格等非文本内容。随后,对抓取的文本进行预处理,包括大小写标准化、标点符号统一化,以及去除重复的文本和低质量句子。接着,使用Punkt和eserix等工具进行句子边界检测,确保中英文句子的准确分割。最后,采用Gale-Church、Microsoft Aligner和Bleualign等算法进行句子对齐,生成高质量的平行语料库。
特点
NEJM-enzh数据集包含约97,441个中英文句子对,涵盖3,028,434个英文词和2,916,772个中文词。该数据集的特点在于其高度专业化的生物医学领域内容,涵盖了从临床研究到医学评论的多种文章类型。所有翻译均由专业译者完成,并经过编辑团队和统计学家的审校,确保了翻译的准确性和专业性。此外,数据集的句子对齐质量高,适合用于训练和评估生物医学领域的机器翻译模型。
使用方法
NEJM-enzh数据集的主要用途是训练和评估生物医学领域的机器翻译模型。研究人员可以基于该数据集进行领域自适应训练,通过在通用领域数据(如WMT18新闻数据)上预训练模型,再使用NEJM-enzh数据集进行微调,显著提升翻译质量。实验表明,仅使用4,000个句子对进行微调,即可在英译中和中译英方向上分别提升25.3和13.4 BLEU分数。此外,该数据集还可用于评估不同句子对齐算法在生物医学领域的表现,为相关研究提供基准数据。
背景与挑战
背景概述
NEJM-enzh数据集是由Baidu Research的研究人员Boxiang Liu和Liang Huang等人于2020年提出的,旨在解决生物医学领域英汉平行语料库的稀缺问题。该数据集基于《新英格兰医学杂志》(NEJM)的英文文章及其官方中文翻译,构建了一个包含约10万句对、每侧约300万词汇的平行语料库。NEJM-enzh的创建填补了生物医学领域英汉平行语料库的空白,为机器翻译模型在生物医学领域的应用提供了重要的数据支持。研究表明,即使仅使用4000句对进行微调,也能显著提升翻译质量,展示了该数据集在生物医学翻译领域的潜力。
当前挑战
NEJM-enzh数据集在构建和应用过程中面临多重挑战。首先,生物医学领域的术语复杂且多样,例如《统一医学语言系统》(UMLS)中包含了超过200万个术语,这对机器翻译模型的泛化能力提出了极高要求。其次,数据集的构建过程涉及多语言网页爬取、文本预处理、句子对齐等复杂步骤,尤其是在句子对齐阶段,由于生物医学文本的特殊性,传统的对齐算法表现不佳,需结合领域知识进行优化。此外,尽管NEJM-enzh显著提升了生物医学翻译的质量,但其规模仍有限,如何进一步扩展数据集并提升翻译模型的领域适应性仍是未来研究的重点。
常用场景
经典使用场景
NEJM-enzh数据集在生物医学领域的机器翻译研究中具有重要应用。该数据集由《新英格兰医学杂志》(NEJM)的英文和中文平行语料构成,涵盖了大量的医学文献和临床研究内容。研究人员通过该数据集训练和优化神经机器翻译模型,显著提升了生物医学文本的翻译质量。特别是在处理复杂的医学术语和长句结构时,NEJM-enzh数据集展现了其独特的优势。
实际应用
NEJM-enzh数据集在实际应用中广泛用于生物医学文献的自动翻译。例如,医学研究人员可以通过该数据集训练的模型快速翻译国际期刊中的最新研究成果,促进跨语言的学术交流。此外,该数据集还可用于开发医学领域的智能辅助翻译工具,帮助医生和研究人员更高效地获取和理解外文医学资料,从而提升临床决策的准确性和效率。
衍生相关工作
NEJM-enzh数据集的发布推动了生物医学机器翻译领域的多项经典工作。例如,基于该数据集的研究展示了领域适应技术在机器翻译中的重要性,证明了通过少量领域内数据进行微调可以显著提升翻译质量。此外,该数据集还激发了更多针对特定领域的平行语料库构建工作,如针对其他语言对的生物医学翻译数据集开发,进一步丰富了生物医学机器翻译的研究资源。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

Houston2013, Berlin, Augsburg

本研究发布了三个多模态遥感基准数据集:Houston2013(高光谱和多光谱数据)、Berlin(高光谱和合成孔径雷达数据)和Augsburg(高光谱、合成孔径雷达和数字表面模型数据)。这些数据集用于土地覆盖分类,旨在通过共享和特定特征学习模型(S2FL)评估多模态基线。数据集包含不同模态和分辨率的图像,适用于评估和开发新的遥感图像处理技术。

arXiv 收录

OECD - Education at a Glance

该数据集提供了关于教育系统在不同国家和地区的详细统计数据,包括教育支出、教育参与率、教育成果、教师资源等多个方面。数据涵盖了OECD成员国以及部分非成员国。

www.oecd.org 收录