community-datasets/europa_ecdc_tm
收藏Hugging Face2024-06-24 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/europa_ecdc_tm
下载链接
链接失效反馈官方服务:
资源简介:
EuropaEcdcTm数据集是一个多语言翻译数据集,包含从英语翻译到其他24种语言的句子对。这些语言包括欧盟的23种官方语言以及挪威语和冰岛语。数据集由欧洲疾病预防控制中心(ECDC)发布,并由卢森堡翻译中心CdT的专业翻译人员进行翻译。数据集的主要用途是用于机器翻译任务,支持的任务包括text2text-generation,通常使用BLEU、ROUGE或SacreBLEU等指标进行评估。数据集的结构包括翻译对,每个翻译对包含源语言和目标语言的句子。数据集的创建目的是为了提供公共卫生领域的翻译资源,特别是包含了一些技术术语(如疾病和治疗名称)。
The EuropaEcdcTm dataset is a multilingual translation dataset containing sentence pairs translated from English into 24 other languages. These languages include the 23 official languages of the EU plus Norwegian and Icelandic. The dataset was released by the European Centre for Disease Prevention and Control (ECDC) and translated by professional translators from the Translation Centre CdT in Luxembourg. The primary use of the dataset is for machine translation tasks, supporting tasks such as text2text-generation, typically evaluated using metrics like BLEU, ROUGE, or SacreBLEU. The dataset structure includes translation pairs, each containing sentences in the source and target languages. The dataset was created to provide translation resources in the public health domain, particularly including technical terms such as disease and treatment names.
提供机构:
community-datasets
原始信息汇总
数据集概述
基本信息
- 数据集名称: EuropaEcdcTm
- 许可证: cc-by-sa-4.0
- 多语言性: 翻译
- 大小类别: 1K<n<10K
- 源数据集: 原始
- 任务类别: 翻译
语言
- 源语言: 英语 (en)
- 目标语言: 保加利亚语 (bg), 捷克语 (cs), 丹麦语 (da), 德语 (de), 希腊语 (el), 西班牙语 (es), 爱沙尼亚语 (et), 芬兰语 (fi), 法语 (fr), 爱尔兰语 (ga), 匈牙利语 (hu), 冰岛语 (is), 意大利语 (it), 立陶宛语 (lt), 拉脱维亚语 (lv), 马耳他语 (mt), 荷兰语 (nl), 挪威语 (no), 波兰语 (pl), 葡萄牙语 (pt), 罗马尼亚语 (ro), 斯洛伐克语 (sk), 斯洛文尼亚语 (sl), 瑞典语 (sv)
数据结构
- 特征:
translation: 包含源语言和目标语言的翻译对
- 数据分割: 仅包含训练集 (train)
配置详情
-
en2bg:
- 特征:
translation: 包含英语和保加利亚语的翻译对
- 分割:
train: 2567个样本, 798436字节
- 下载大小: 382582字节
- 数据集大小: 798436字节
- 特征:
-
en2cs:
- 特征:
translation: 包含英语和捷克语的翻译对
- 分割:
train: 2562个样本, 585423字节
- 下载大小: 4286636字节
- 数据集大小: 585423字节
- 特征:
-
en2da:
- 特征:
translation: 包含英语和丹麦语的翻译对
- 分割:
train: 2577个样本, 545106字节
- 下载大小: 4286636字节
- 数据集大小: 545106字节
- 特征:
-
en2de:
- 特征:
translation: 包含英语和德语的翻译对
- 分割:
train: 2560个样本, 588974字节
- 下载大小: 4286636字节
- 数据集大小: 588974字节
- 特征:
-
en2el:
- 特征:
translation: 包含英语和希腊语的翻译对
- 分割:
train: 2530个样本, 849151字节
- 下载大小: 4286636字节
- 数据集大小: 849151字节
- 特征:
-
en2es:
- 特征:
translation: 包含英语和西班牙语的翻译对
- 分割:
train: 2564个样本, 582798字节
- 下载大小: 4286636字节
- 数据集大小: 582798字节
- 特征:
-
en2et:
- 特征:
translation: 包含英语和爱沙尼亚语的翻译对
- 分割:
train: 2581个样本, 543554字节
- 下载大小: 4286636字节
- 数据集大小: 543554字节
- 特征:
-
en2fi:
- 特征:
translation: 包含英语和芬兰语的翻译对
- 分割:
train: 2617个样本, 573069字节
- 下载大小: 4286636字节
- 数据集大小: 573069字节
- 特征:
-
en2fr:
- 特征:
translation: 包含英语和法语的翻译对
- 分割:
train: 2561个样本, 595481字节
- 下载大小: 327758字节
- 数据集大小: 595481字节
- 特征:
-
en2ga:
- 特征:
translation: 包含英语和爱尔兰语的翻译对
- 分割:
train: 1356个样本, 286362字节
- 下载大小: 4286636字节
- 数据集大小: 286362字节
- 特征:
-
en2hu:
- 特征:
translation: 包含英语和匈牙利语的翻译对
- 分割:
train: 2571个样本, 600536字节
- 下载大小: 4286636字节
- 数据集大小: 600536字节
- 特征:
-
en2is:
- 特征:
translation: 包含英语和冰岛语的翻译对
- 分割:
train: 2511个样本, 557055字节
- 下载大小: 4286636字节
- 数据集大小: 557055字节
- 特征:
-
en2it:
- 特征:
translation: 包含英语和意大利语的翻译对
- 分割:
train: 2534个样本, 576797字节
- 下载大小: 4286636字节
- 数据集大小: 576797字节
- 特征:
-
en2lt:
- 特征:
translation: 包含英语和立陶宛语的翻译对
- 分割:
train: 2545个样本, 645429字节
- 下载大小: 4286636字节
- 数据集大小: 645429字节
- 特征:
-
en2lv:
- 特征:
translation: 包含英语和拉脱维亚语的翻译对
- 分割:
train: 2542个样本, 576217字节
- 下载大小: 4286636字节
- 数据集大小: 576217字节
- 特征:
-
en2mt:
- 特征:
translation: 包含英语和马耳他语的翻译对
- 分割:
train: 2539个样本, 608263字节
- 下载大小: 4286636字节
- 数据集大小: 608263字节
- 特征:
-
en2nl:
- 特征:
translation: 包含英语和荷兰语的翻译对
- 分割:
train: 2510个样本, 569643字节
- 下载大小: 4286636字节
- 数据集大小: 569643字节
- 特征:
-
en2no:
- 特征:
translation: 包含英语和挪威语的翻译对
- 分割:
train: 2537个样本, 536725字节
- 下载大小: 4286636字节
- 数据集大小: 536725字节
- 特征:
-
en2pl:
- 特征:
translation: 包含英语和波兰语的翻译对
- 分割:
train: 2546个样本, 644402字节
- 下载大小: 4286636字节
- 数据集大小: 644402字节
- 特征:
-
en2pt:
- 特征:
translation: 包含英语和葡萄牙语的翻译对
- 分割:
train: 2531个样本, 583638字节
- 下载大小: 4286636字节
- 数据集大小: 583638字节
- 特征:
-
en2ro:
- 特征:
translation: 包含英语和罗马尼亚语的翻译对
- 分割:
train: 2555个样本, 585159字节
- 下载大小: 4286636字节
- 数据集大小: 585159字节
- 特征:
-
en2sk:
- 特征:
translation: 包含英语和斯洛伐克语的翻译对
- 分割:
train: 2525个样本, 627797字节
- 下载大小: 4286636字节
- 数据集大小: 627797字节
- 特征:
-
en2sl:
- 特征:
translation: 包含英语和斯洛文尼亚语的翻译对
- 分割:
train: 2545个样本, 594019字节
- 下载大小: 319355字节
- 数据集大小: 594019字节
- 特征:
-
en2sv:
- 特征:
translation: 包含英语和瑞典语的翻译对
- 分割:
train: 2527个样本, 546349字节
- 下载大小: 4286636字节
- 数据集大小: 546349字节
- 特征:



