bigbio/paramed|医学翻译数据集|平行语料库数据集

hugging_face2022-12-22 更新2024-03-04 收录

医学翻译

平行语料库

下载链接：

https://hf-mirror.com/datasets/bigbio/paramed

下载链接

链接失效反馈

资源简介：

ParaMed是一个中英平行语料库，数据来源于《新英格兰医学杂志》网站，包含自2011年以来的所有文章对（约2000对）。

提供机构：

bigbio

原始信息汇总

数据集概述：ParaMed

基本信息

名称: ParaMed
语言:
- 英语 (English)
- 中文 (Chinese)
许可证: CC-BY-4.0
多语言支持: 是
公共可用性: 是
任务类型: 翻译 (TRANSLATION)

数据集描述

主页: https://github.com/boxiangliu/ParaMed
是否公开: 是
PubMed链接: 否
数据来源:
- 英文文章来源于 https://www.nejm.org/
- 中文文章来源于 http://nejmqianyan.cn/
数据内容: 包含自2011年以来的所有文章对（约2000对）

引用信息

@article{liu2021paramed, author = {Liu, Boxiang and Huang, Liang}, title = {ParaMed: a parallel corpus for English–Chinese translation in the biomedical domain}, journal = {BMC Medical Informatics and Decision Making}, volume = {21}, year = {2021}, url = {https://bmcmedinformdecismak.biomedcentral.com/articles/10.1186/s12911-021-01621-8}, doi = {10.1186/s12911-021-01621-8} }

AI搜集汇总

数据集介绍

构建方式

ParaMed数据集的构建基于《新英格兰医学杂志》（NEJM）网站上的中英文文章。通过爬取自2011年以来的所有文章对，数据集包含了约2000对中英文平行文本。英文文章来源于NEJM官方网站，而中文文章则来自NEJM的中文版网站。这一构建方式确保了数据的高质量和专业性，适用于生物医学领域的翻译研究。

特点

ParaMed数据集的特点在于其专注于生物医学领域的中英文平行语料。数据集不仅涵盖了丰富的医学主题，还确保了文本的准确性和专业性。此外，数据集的多语言特性（中英文）为跨语言翻译任务提供了宝贵的资源。其开放性和可访问性进一步促进了生物医学翻译领域的研究与应用。

使用方法

ParaMed数据集主要用于生物医学领域的中英文翻译任务。研究人员可以通过该数据集训练和评估机器翻译模型，特别是在专业领域的翻译性能。数据集的结构清晰，便于直接用于模型训练和测试。此外，其开放许可（CC BY 4.0）允许广泛的学术和商业用途，进一步推动了生物医学翻译技术的发展。

背景与挑战

背景概述

ParaMed数据集由Boxiang Liu和Liang Huang于2021年创建，旨在为生物医学领域的英汉翻译任务提供高质量的平行语料库。该数据集基于《新英格兰医学杂志》（NEJM）网站上的文章，涵盖了自2011年以来的约2000对英汉对照文章。这些文章分别来自NEJM的英文官网和其中文版网站，确保了语料的权威性和专业性。ParaMed的发布为生物医学领域的机器翻译研究提供了重要的数据支持，推动了跨语言医学信息交流的发展。

当前挑战

ParaMed数据集在构建过程中面临了多方面的挑战。首先，生物医学领域的文本具有高度的专业性和复杂性，要求翻译模型能够准确理解并转换医学术语和复杂句式。其次，由于数据来源的多样性，语料的质量和一致性需要经过严格的筛选和校对，以确保翻译的准确性。此外，英汉两种语言在语法结构和表达方式上存在显著差异，这对翻译模型的跨语言处理能力提出了更高的要求。这些挑战不仅体现在数据集的构建过程中，也直接影响了后续翻译任务的效果和模型的性能优化。

常用场景

经典使用场景

ParaMed数据集在生物医学领域的机器翻译研究中扮演着重要角色。该数据集通过提供高质量的中英双语平行语料，为研究人员提供了一个理想的平台，用于开发和评估跨语言的翻译模型。特别是在处理专业术语和复杂句式时，ParaMed能够显著提升翻译的准确性和流畅性。

实际应用

在实际应用中，ParaMed数据集被广泛用于开发自动翻译工具，这些工具能够帮助医学研究人员和临床医生快速获取和理解国际前沿的医学研究成果。此外，该数据集还被用于构建跨语言的医学知识库，促进了全球医学知识的共享与传播。

衍生相关工作

基于ParaMed数据集，研究人员已经开发了多种先进的翻译模型和算法。这些工作不仅提升了生物医学翻译的准确性，还为其他领域的跨语言研究提供了宝贵的经验。例如，一些研究利用ParaMed数据集训练了基于神经网络的翻译模型，这些模型在处理复杂医学文本时表现出色，为后续的研究奠定了坚实的基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LEGO数据集

该数据集包含了关于LEGO公司的历史、产品提供以及特定LEGO套装的信息，用于分析LEGO套装的规模、发布年份、主题分布以及套装复杂性的变化。

github 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展，让高质量机器人数据触手可及，作为上海模塑申城语料普惠计划中的一份子，智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思，重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目，旨在构建国际领先的开源技术底座，标志着具身智能领域「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集，AgiBot World 的长程数据规模高出 10 倍，场景范围覆盖面扩大 100 倍，数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能，从抓取、放置、推、拉等基础操作，到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互，几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

猫狗图像数据集

该数据集包含猫和狗的图像，每类各12500张。训练集和测试集分别包含10000张和2500张图像，用于模型的训练和评估。

github 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录