ahazeemi/opus-medical-en-de
收藏Hugging Face2023-07-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ahazeemi/opus-medical-en-de
下载链接
链接失效反馈官方服务:
资源简介:
这是一个多领域的德语-英语平行数据集,由Aharoni和Goldberg在2020年引入。该数据集通过新的数据分割方法避免了训练集与开发/测试集之间的重复例子和数据泄露。原始的多领域数据首次出现在Koehn和Knowles的2017年研究中,包含五个在Opus网站上可用的数据集。
This is a multi-domain German-English parallel dataset introduced by Aharoni and Goldberg in 2020. This dataset utilizes a novel data splitting method to eliminate duplicate instances and data leakage between the training, development, and test sets. The original multi-domain dataset, first appearing in the 2017 study by Koehn and Knowles, comprises five datasets available on the Opus website.
提供机构:
ahazeemi
原始信息汇总
数据集概述
数据集名称
opus-medical-en-de
数据集特征
- de: 字符串类型
- en: 字符串类型
数据集分割
- train:
- 示例数量: 248099
- 字节数: 53121579
- dev:
- 示例数量: 2000
- 字节数: 433240
- test:
- 示例数量: 2000
- 字节数: 446369
数据集大小
- 下载大小: 35861692字节
- 数据集大小: 54001188字节
任务类别
- 翻译
语言
- 英语 (en)
- 德语 (de)
标签
- 医疗
大小类别
- 100K < n < 1M



