learningmachineaz/translate_enaz_10m
收藏Hugging Face2023-04-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/learningmachineaz/translate_enaz_10m
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于训练基于mT5的机器翻译模型,数据来源于阿塞拜疆国家图书馆的各种文本资源。数据集包含约1000万条英语-阿塞拜疆语句对,格式为TSV(制表符分隔对),总大小为975M(压缩)和2.8G(未压缩)。数据集中仅包含清洁文本,未使用维基百科文章,因为它们包含大量不相关数据。
该数据集用于训练基于mT5的机器翻译模型,数据来源于阿塞拜疆国家图书馆的各种文本资源。数据集包含约1000万条英语-阿塞拜疆语句对,格式为TSV(制表符分隔对),总大小为975M(压缩)和2.8G(未压缩)。数据集中仅包含清洁文本,未使用维基百科文章,因为它们包含大量不相关数据。
提供机构:
learningmachineaz
原始信息汇总
数据集概述
基本信息
- 许可证: openrail
- 任务类别:
- 翻译
- 文本生成
- 文本到文本生成
- 语言:
- 英语
- 阿塞拜疆语
- 标签:
- 阿塞拜疆书籍
- 阿塞拜疆新闻
- 阿塞拜疆诗歌
- 阿塞拜疆文章
- 阿塞拜疆数据集
- 美观名称: 英语-阿塞拜疆语数据集
- 大小类别: 1M<n<10M
数据集描述
- 用途: 用于训练基于mT5的机器翻译模型
- 数据来源: 阿塞拜疆国家图书馆的多种文本资源
- 数据特点: 仅包含干净的文本,未使用维基百科文章,因其包含大量无关数据
数据集详情
- 行数: 约1000万对英语-阿塞拜疆语句子对
- 大小: 975MB(压缩)/ 2.8GB(未压缩)
- 格式: TSV(制表符分隔的对)
- 英语翻译: 使用Google翻译
- 阿塞拜疆语文本: 原始清洁文本
作者
- 收集与准备者: Renat Kalimulin



