Helsinki-NLP/tep_en_fa_para

Name: Helsinki-NLP/tep_en_fa_para
Creator: Helsinki-NLP
Published: 2024-01-18 11:17:02
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/Helsinki-NLP/tep_en_fa_para

下载链接

链接失效反馈

官方服务：

资源简介：

TepEnFaPara数据集是一个英语-波斯语的平行语料库，由德黑兰大学的自然语言与文本处理实验室提供。该数据集的主要任务是支持英语和波斯语之间的机器翻译任务。数据集包含612,087个训练样本，规模在10万到100万之间。数据集的创建者、注释者、数据收集和标准化过程等信息未提供。

提供机构：

Helsinki-NLP

原始信息汇总

数据集概述

基本信息

数据集名称: TepEnFaPara
语言: 英语 (en), 波斯语 (fa)
许可证: 未知
多语言性: 翻译
大小: 100K<n<1M
源数据集: 原始数据
任务类别: 翻译

数据集结构

配置名称: en-fa
特征:
- 名称: translation
- 数据类型:
  - 语言: 英语, 波斯语
数据分割:
- 训练集:
  - 字节数: 58735557
  - 示例数: 612087
- 下载大小: 16353318
- 数据集大小: 58735557

数据集创建

创建理由: 提供第一个免费的英语-波斯语平行语料库
源数据: 原始数据
注释: 由发现者创建
语言创建者: 由发现者创建

引用信息

M. T. Pilevar, H. Faili, and A. H. Pilevar, “TEP: Tehran English-Persian Parallel Corpus”, in proceedings of 12th International Conference on Intelligent Text Processing and Computational Linguistics (CICLing-2011).

5,000+

优质数据集

54 个

任务类型

进入经典数据集