vietgpt/opus100_envi
收藏Hugging Face2023-07-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vietgpt/opus100_envi
下载链接
链接失效反馈官方服务:
资源简介:
Opus100是一个用于翻译任务的数据集,主要涉及英语和越南语之间的翻译。数据集包含1,000,000个训练例子,2,000个验证例子和2,000个测试例子。每个例子包含英语和越南语的句子对。数据集的特征包括两个字段:en(英语句子)和vi(越南语句子)。数据集的下载大小为59,201,490字节,总大小为83,001,935字节。该数据集适用于自然语言处理中的翻译任务,并且被标记为语言模型(LM)相关。
Opus100是一个用于翻译任务的数据集,主要涉及英语和越南语之间的翻译。数据集包含1,000,000个训练例子,2,000个验证例子和2,000个测试例子。每个例子包含英语和越南语的句子对。数据集的特征包括两个字段:en(英语句子)和vi(越南语句子)。数据集的下载大小为59,201,490字节,总大小为83,001,935字节。该数据集适用于自然语言处理中的翻译任务,并且被标记为语言模型(LM)相关。
提供机构:
vietgpt
原始信息汇总
数据集概述
数据集名称
- Opus100
数据集特征
- en: 字符串类型
- vi: 字符串类型
数据集分割
- train: 1,000,000 示例,82,614,470 字节
- validation: 2,000 示例,194,721 字节
- test: 2,000 示例,192,744 字节
数据集大小
- 下载大小: 59,201,490 字节
- 数据集大小: 83,001,935 字节
任务类别
- 翻译
语言
- 英语 (en)
- 越南语 (vi)
标签
- LM
大小类别
- 1M<n<10M



