qanastek/ELRC-Medical-V2
收藏数据集概述
数据集名称
ELRC-Medical-V2
数据集描述
ELRC-Medical-V2 是一个由欧洲委员会资助的神经机器翻译平行语料库,由德国人工智能研究中心协调。
支持的任务
- 翻译:用于训练翻译模型。
语言
- 包含23种欧洲联盟(EU)语言,每种语言的源语言均为英语(EN)。
- 语言列表:Bulgarian (bg), Czech (cs), Danish (da), German (de), Greek (el), Spanish (es), Estonian (et), Finnish (fi), French (fr), Irish (ga), Croatian (hr), Hungarian (hu), Italian (it), Lithuanian (lt), Latvian (lv), Maltese (mt), Dutch (nl), Polish (pl), Portuguese (pt), Romanian (ro), Slovak (sk), Slovenian (sl), Swedish (sv)。
数据集结构
- 数据实例:包含文档标识符(id)、语言对(lang)、源文本(source_text)和目标文本(target_text)。
- 数据字段:
- id: 整数类型
- lang: 字符串类型
- source_text: 字符串类型
- target_text: 字符串类型
- 数据分割:提供了每种语言的文档数量、平均源语言和目标语言的令牌数量。
数据集创建
- 来源数据:数据来源于多语言网站,通过ILSP-FC工具进行规范化、清洗和去重,使用Maligna aligner进行段落对齐。
- 个人和敏感信息:数据集不含个人或敏感信息。
许可证信息
引用信息
latex @inproceedings{losch-etal-2018-european, title = {European Language Resource Coordination: Collecting Language Resources for Public Sector Multilingual Information Management}, author = { Losch, Andrea and Mapelli, Valérie and Piperidis, Stelios and Vasiljevs, Andrejs and Smal, Lilli and Declerck, Thierry and Schnur, Eileen and Choukri, Khalid and van Genabith, Josef }, booktitle = {Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)}, month = may, year = 2018, address = {Miyazaki, Japan}, publisher = {European Language Resources Association (ELRA)}, url = {https://aclanthology.org/L18-1213}, }



