five

ahazeemi/opus-medical-en-de

收藏
Hugging Face2023-07-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ahazeemi/opus-medical-en-de
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个多领域的德语-英语平行数据集,由Aharoni和Goldberg在2020年引入。该数据集通过新的数据分割方法避免了训练集与开发/测试集之间的重复例子和数据泄露。原始的多领域数据首次出现在Koehn和Knowles的2017年研究中,包含五个在Opus网站上可用的数据集。

This is a multi-domain German-English parallel dataset introduced by Aharoni and Goldberg in 2020. This dataset utilizes a novel data splitting method to eliminate duplicate instances and data leakage between the training, development, and test sets. The original multi-domain dataset, first appearing in the 2017 study by Koehn and Knowles, comprises five datasets available on the Opus website.
提供机构:
ahazeemi
原始信息汇总

数据集概述

数据集名称

opus-medical-en-de

数据集特征

  • de: 字符串类型
  • en: 字符串类型

数据集分割

  • train:
    • 示例数量: 248099
    • 字节数: 53121579
  • dev:
    • 示例数量: 2000
    • 字节数: 433240
  • test:
    • 示例数量: 2000
    • 字节数: 446369

数据集大小

  • 下载大小: 35861692字节
  • 数据集大小: 54001188字节

任务类别

  • 翻译

语言

  • 英语 (en)
  • 德语 (de)

标签

  • 医疗

大小类别

  • 100K < n < 1M
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作