g8a9/europarl_en-it

Name: g8a9/europarl_en-it
Creator: g8a9
Published: 2022-09-07 10:14:04
License: 暂无描述

Hugging Face2022-09-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/g8a9/europarl_en-it

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集仅包含Europarl v7的英语-意大利语分割部分。创建该数据集的目的是为了提供给M2L 2022夏季学校的学生使用。数据集包含英语转录和意大利语翻译两个字段，并提供了自定义的训练/验证/测试分割。

提供机构：

g8a9

原始信息汇总

数据集概述：Europarl v7 (en-it split)

数据集描述

名称：Europarl v7 (en-it split)
语言：
- 源语言：英语（en）
- 目标语言：意大利语（it）
类型：
- 单语
- 翻译
用途：为M2L 2022 Summer School学生提供。

数据集结构

数据字段

sent_en：英语文本
sent_it：意大利语翻译

数据分割

训练集：1717204对
验证集：190911对
测试集：1000对

引用信息

若使用此数据集，请引用： Koehn, P. (2005). Europarl: A parallel corpus for statistical machine translation. In Proceedings of machine translation summit x: papers (pp. 79-86).

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是Europarl v7的英语-意大利语平行语料分块，包含约190万行欧洲议会演讲的翻译对，专门用于机器翻译任务。数据集提供了自定义的训练、验证和测试划分，每行数据包含英语原文(sent_en)和对应的意大利语翻译(sent_it)，适合用于训练和评估翻译模型。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集