qanastek/ELRC-Medical-V2

Name: qanastek/ELRC-Medical-V2
Creator: qanastek
Published: 2022-10-24 17:15:17
License: 暂无描述

Hugging Face2022-10-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/qanastek/ELRC-Medical-V2

下载链接

链接失效反馈

官方服务：

资源简介：

ELRC-Medical-V2是一个用于神经机器翻译的平行语料库，由欧盟资助并由德国人工智能研究中心协调。该数据集包含23种欧洲语言的源语言和目标语言的句子对，源语言为英语。数据集的创建过程包括从多语言网站获取双语数据、规范化、清理、去重和识别平行文档，并使用Maligna对齐器进行段落对齐。数据集不包含个人或敏感信息，但翻译质量存在一定的变异性。数据集的使用遵循CC BY 4.0许可。

ELRC-Medical-V2 is a parallel corpus for neural machine translation, funded by the European Union and coordinated by the German Research Center for Artificial Intelligence. This dataset includes sentence pairs across 23 European languages, with English as the source language. The dataset creation process involves acquiring bilingual data from multilingual websites, normalization, cleaning, deduplication, parallel document identification, and paragraph alignment using the Maligna aligner. The dataset contains no personal or sensitive information, though its translation quality exhibits certain variability. Usage of this dataset is subject to the CC BY 4.0 license.

提供机构：

qanastek

原始信息汇总

数据集概述

数据集名称

ELRC-Medical-V2

数据集描述

ELRC-Medical-V2 是一个由欧洲委员会资助的神经机器翻译平行语料库，由德国人工智能研究中心协调。

支持的任务

翻译：用于训练翻译模型。

语言

包含23种欧洲联盟（EU）语言，每种语言的源语言均为英语（EN）。
语言列表：Bulgarian (bg), Czech (cs), Danish (da), German (de), Greek (el), Spanish (es), Estonian (et), Finnish (fi), French (fr), Irish (ga), Croatian (hr), Hungarian (hu), Italian (it), Lithuanian (lt), Latvian (lv), Maltese (mt), Dutch (nl), Polish (pl), Portuguese (pt), Romanian (ro), Slovak (sk), Slovenian (sl), Swedish (sv)。

数据集结构

数据实例：包含文档标识符（id）、语言对（lang）、源文本（source_text）和目标文本（target_text）。
数据字段：
- id: 整数类型
- lang: 字符串类型
- source_text: 字符串类型
- target_text: 字符串类型
数据分割：提供了每种语言的文档数量、平均源语言和目标语言的令牌数量。

数据集创建

来源数据：数据来源于多语言网站，通过ILSP-FC工具进行规范化、清洗和去重，使用Maligna aligner进行段落对齐。
个人和敏感信息：数据集不含个人或敏感信息。

许可证信息

本数据集根据Attribution 4.0 International (CC BY 4.0) License授权。

引用信息

latex @inproceedings{losch-etal-2018-european, title = {European Language Resource Coordination: Collecting Language Resources for Public Sector Multilingual Information Management}, author = { Losch, Andrea and Mapelli, Valérie and Piperidis, Stelios and Vasiljevs, Andrejs and Smal, Lilli and Declerck, Thierry and Schnur, Eileen and Choukri, Khalid and van Genabith, Josef }, booktitle = {Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)}, month = may, year = 2018, address = {Miyazaki, Japan}, publisher = {European Language Resources Association (ELRA)}, url = {https://aclanthology.org/L18-1213}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集