five

alvanlii/tinystories_cantonese_english_aya32

收藏
Hugging Face2024-07-22 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/alvanlii/tinystories_cantonese_english_aya32
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Tiny Stories English - Cantonese,是从TinyStories数据集中翻译前50,000行得到的。翻译使用了Cohere的`CohereForAI/aya-23-35B`模型,并且所有翻译都经过了CanCLID的typo-corrector工具进行错误修正。数据集包含两个语言:粤语(yue)和中文(zh),主要用于翻译和文本生成任务。数据集的特征包括english和canto两个字段,均为字符串类型。数据集分为一个训练集,包含50,000个样本,总大小为88,270,340字节。

This dataset is a translation of the first 50K rows of the TinyStories dataset, containing English and Cantonese texts. The translation was done using Coheres CohereForAI/aya-23-35B model and corrected with CanCLIDs typo-corrector tool. The dataset will be updated periodically to include more translations.
提供机构:
alvanlii
原始信息汇总

数据集概述

基本信息

  • 名称: tinystories_cantonese_english_aya32
  • 别名: alvanlii/tinystories_cantonese_english_aya32
  • 描述: 该数据集是TinyStories的前50,000行的翻译,由Cohere的CohereForAI/aya-23-35B完成。翻译内容会定期更新。所有翻译都经过CanCLID的拼写校正器进行小错误修正。
  • 创建者: Alvin Li
  • 网址: tinystories_cantonese_english_aya32

关键词

  • 翻译
  • 文本生成
  • 粤语
  • 中文
  • cdla-sharing-1.0
  • 10K - 100K
  • parquet
  • 文本
  • 数据集
  • pandas
  • Croissant
  • 🇺🇸 美国地区

许可证

数据格式

  • 分布:
    • 类型: cr:FileObject

    • 名称: repo

    • 描述: HF Mirror的Git仓库。

    • 内容URL: repo

    • 编码格式: git+https

    • 类型: cr:FileSet

    • 名称: parquet-files-for-config-default

    • 描述: 由HF Mirror转换的基础Parquet文件(参见:Parquet转换)。

    • 包含于: repo

    • 编码格式: application/x-parquet

    • 包含: default//.parquet

数据字段

  • 记录集:
    • 类型: cr:RecordSet
    • 名称: default
    • 描述: alvanlii/tinystories_cantonese_english_aya32的default子集
    • 字段:
      • 类型: cr:Field

      • 名称: default/english

      • 描述: HF Mirror parquet文件中的english列。

      • 数据类型: sc:Text

      • 来源:

        • 文件集: parquet-files-for-config-default
        • 提取: english列
      • 类型: cr:Field

      • 名称: default/canto

      • 描述: HF Mirror parquet文件中的canto列。

      • 数据类型: sc:Text

      • 来源:

        • 文件集: parquet-files-for-config-default
        • 提取: canto列
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作