ELRC-Medical-V2
收藏数据集概述:ELRC-Medical-V2
数据集描述
数据集摘要
ELRC-Medical-V2 是一个由欧洲委员会资助的神经机器翻译平行语料库,由德国人工智能研究中心协调。
支持的任务和排行榜
- 任务: 翻译
- 用途: 用于训练翻译模型
语言
- 源语言: 英语 (en)
- 目标语言: 包含23种欧洲联盟语言
数据集结构
数据实例
每个数据实例包含以下字段:
- id: 文档标识符,整数类型
- lang: 源语言和目标语言对,字符串类型
- source_text: 源文本,字符串类型
- target_text: 目标文本,字符串类型
数据分割
数据按语言分割,详细统计信息包括文档数量、平均源语言和目标语言的令牌数量。
数据集创建
来源数据
- 初始数据收集和规范化: 使用ILSP-FC工具进行数据收集和规范化,Maligna aligner用于段落对齐。
- 源语言生产者: Vassilis Papavassiliou上传至ELRC-Share。
个人和敏感信息
数据集不含个人或敏感信息。
使用数据时的考虑
- 已知限制: 目标翻译的质量存在变异性。
附加信息
数据集创建者
- ELRC-Medical-V2: Labrak Yanis, Dufour Richard
- Bilingual corpus from the Publications Office of the EU on the medical domain v.2 (EN-XX) Corpus: Vassilis Papavassiliou及其他人员
许可证信息
数据集遵循CC-BY-4.0许可证。
引用信息
使用此数据集时,请引用以下文献: latex @inproceedings{losch-etal-2018-european, title = European Language Resource Coordination: Collecting Language Resources for Public Sector Multilingual Information Management, author = { Losch, Andrea and Mapelli, Valérie and Piperidis, Stelios and Vasiljevs, Andrejs and Smal, Lilli and Declerck, Thierry and Schnur, Eileen and Choukri, Khalid and van Genabith, Josef }, booktitle = Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), month = may, year = 2018, address = Miyazaki, Japan, publisher = European Language Resources Association (ELRA), url = https://aclanthology.org/L18-1213, }




