five

vietgpt/opus100_envi

收藏
Hugging Face2023-07-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vietgpt/opus100_envi
下载链接
链接失效反馈
官方服务:
资源简介:
Opus100是一个用于翻译任务的数据集,主要涉及英语和越南语之间的翻译。数据集包含1,000,000个训练例子,2,000个验证例子和2,000个测试例子。每个例子包含英语和越南语的句子对。数据集的特征包括两个字段:en(英语句子)和vi(越南语句子)。数据集的下载大小为59,201,490字节,总大小为83,001,935字节。该数据集适用于自然语言处理中的翻译任务,并且被标记为语言模型(LM)相关。

Opus100是一个用于翻译任务的数据集,主要涉及英语和越南语之间的翻译。数据集包含1,000,000个训练例子,2,000个验证例子和2,000个测试例子。每个例子包含英语和越南语的句子对。数据集的特征包括两个字段:en(英语句子)和vi(越南语句子)。数据集的下载大小为59,201,490字节,总大小为83,001,935字节。该数据集适用于自然语言处理中的翻译任务,并且被标记为语言模型(LM)相关。
提供机构:
vietgpt
原始信息汇总

数据集概述

数据集名称

  • Opus100

数据集特征

  • en: 字符串类型
  • vi: 字符串类型

数据集分割

  • train: 1,000,000 示例,82,614,470 字节
  • validation: 2,000 示例,194,721 字节
  • test: 2,000 示例,192,744 字节

数据集大小

  • 下载大小: 59,201,490 字节
  • 数据集大小: 83,001,935 字节

任务类别

  • 翻译

语言

  • 英语 (en)
  • 越南语 (vi)

标签

  • LM

大小类别

  • 1M<n<10M
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作