five

g8a9/europarl_en-it

收藏
Hugging Face2022-09-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/g8a9/europarl_en-it
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集仅包含Europarl v7的英语-意大利语分割部分。创建该数据集的目的是为了提供给M2L 2022夏季学校的学生使用。数据集包含英语转录和意大利语翻译两个字段,并提供了自定义的训练/验证/测试分割。
提供机构:
g8a9
原始信息汇总

数据集概述:Europarl v7 (en-it split)

数据集描述

  • 名称:Europarl v7 (en-it split)
  • 语言
    • 源语言:英语(en)
    • 目标语言:意大利语(it)
  • 类型
    • 单语
    • 翻译
  • 用途:为M2L 2022 Summer School学生提供。

数据集结构

数据字段

  • sent_en:英语文本
  • sent_it:意大利语翻译

数据分割

  • 训练集:1717204对
  • 验证集:190911对
  • 测试集:1000对

引用信息

若使用此数据集,请引用: Koehn, P. (2005). Europarl: A parallel corpus for statistical machine translation. In Proceedings of machine translation summit x: papers (pp. 79-86).

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是Europarl v7的英语-意大利语平行语料分块,包含约190万行欧洲议会演讲的翻译对,专门用于机器翻译任务。数据集提供了自定义的训练、验证和测试划分,每行数据包含英语原文(sent_en)和对应的意大利语翻译(sent_it),适合用于训练和评估翻译模型。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作