alvanlii/tinystories_cantonese_english_aya32
收藏Hugging Face2024-07-22 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/alvanlii/tinystories_cantonese_english_aya32
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Tiny Stories English - Cantonese,是从TinyStories数据集中翻译前50,000行得到的。翻译使用了Cohere的`CohereForAI/aya-23-35B`模型,并且所有翻译都经过了CanCLID的typo-corrector工具进行错误修正。数据集包含两个语言:粤语(yue)和中文(zh),主要用于翻译和文本生成任务。数据集的特征包括english和canto两个字段,均为字符串类型。数据集分为一个训练集,包含50,000个样本,总大小为88,270,340字节。
This dataset is a translation of the first 50K rows of the TinyStories dataset, containing English and Cantonese texts. The translation was done using Coheres CohereForAI/aya-23-35B model and corrected with CanCLIDs typo-corrector tool. The dataset will be updated periodically to include more translations.
提供机构:
alvanlii
原始信息汇总
数据集概述
基本信息
- 名称: tinystories_cantonese_english_aya32
- 别名: alvanlii/tinystories_cantonese_english_aya32
- 描述: 该数据集是TinyStories的前50,000行的翻译,由Cohere的CohereForAI/aya-23-35B完成。翻译内容会定期更新。所有翻译都经过CanCLID的拼写校正器进行小错误修正。
- 创建者: Alvin Li
- 网址: tinystories_cantonese_english_aya32
关键词
- 翻译
- 文本生成
- 粤语
- 中文
- cdla-sharing-1.0
- 10K - 100K
- parquet
- 文本
- 数据集
- pandas
- Croissant
- 🇺🇸 美国地区
许可证
数据格式
- 分布:
数据字段
- 记录集:
- 类型: cr:RecordSet
- 名称: default
- 描述: alvanlii/tinystories_cantonese_english_aya32的default子集
- 字段:
-
类型: cr:Field
-
名称: default/english
-
描述: HF Mirror parquet文件中的english列。
-
数据类型: sc:Text
-
来源:
- 文件集: parquet-files-for-config-default
- 提取: english列
-
类型: cr:Field
-
名称: default/canto
-
描述: HF Mirror parquet文件中的canto列。
-
数据类型: sc:Text
-
来源:
- 文件集: parquet-files-for-config-default
- 提取: canto列
-



