five

learningmachineaz/translate_enaz_10m

收藏
Hugging Face2023-04-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/learningmachineaz/translate_enaz_10m
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于训练基于mT5的机器翻译模型,数据来源于阿塞拜疆国家图书馆的各种文本资源。数据集包含约1000万条英语-阿塞拜疆语句对,格式为TSV(制表符分隔对),总大小为975M(压缩)和2.8G(未压缩)。数据集中仅包含清洁文本,未使用维基百科文章,因为它们包含大量不相关数据。

该数据集用于训练基于mT5的机器翻译模型,数据来源于阿塞拜疆国家图书馆的各种文本资源。数据集包含约1000万条英语-阿塞拜疆语句对,格式为TSV(制表符分隔对),总大小为975M(压缩)和2.8G(未压缩)。数据集中仅包含清洁文本,未使用维基百科文章,因为它们包含大量不相关数据。
提供机构:
learningmachineaz
原始信息汇总

数据集概述

基本信息

  • 许可证: openrail
  • 任务类别:
    • 翻译
    • 文本生成
    • 文本到文本生成
  • 语言:
    • 英语
    • 阿塞拜疆语
  • 标签:
    • 阿塞拜疆书籍
    • 阿塞拜疆新闻
    • 阿塞拜疆诗歌
    • 阿塞拜疆文章
    • 阿塞拜疆数据集
  • 美观名称: 英语-阿塞拜疆语数据集
  • 大小类别: 1M<n<10M

数据集描述

  • 用途: 用于训练基于mT5的机器翻译模型
  • 数据来源: 阿塞拜疆国家图书馆的多种文本资源
  • 数据特点: 仅包含干净的文本,未使用维基百科文章,因其包含大量无关数据

数据集详情

  • 行数: 约1000万对英语-阿塞拜疆语句子对
  • 大小: 975MB(压缩)/ 2.8GB(未压缩)
  • 格式: TSV(制表符分隔的对)
  • 英语翻译: 使用Google翻译
  • 阿塞拜疆语文本: 原始清洁文本

作者

  • 收集与准备者: Renat Kalimulin
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作