five

4n3mone/aya_collection_korean

收藏
Hugging Face2024-06-14 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/4n3mone/aya_collection_korean
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从CohereForAI/aya_collection_language_split中提取的韩语部分数据集。数据集中包含多个来源的数据集,部分数据集是翻译版本。数据集的特征包括id、inputs、targets、dataset_name、sub_dataset_name、task_type、template_id、language、script和split。数据集分为train、validation和test三个部分,分别包含3605894、276202和279418个样本。数据集的下载大小为1147896919字节,总大小为2549533942字节。
提供机构:
4n3mone
原始信息汇总

数据集概述

数据集信息

  • 特征列表

    • id: 类型 int64
    • inputs: 类型 string
    • targets: 类型 string
    • dataset_name: 类型 string
    • sub_dataset_name: 类型 string
    • task_type: 类型 string
    • template_id: 类型 int64
    • language: 类型 string
    • script: 类型 string
    • split: 类型 string
  • 数据分割

    • train: 字节数 2164270878, 样本数 3605894
    • validation: 字节数 182708679, 样本数 276202
    • test: 字节数 202554385, 样本数 279418
  • 数据大小

    • 下载大小: 1147896919 字节
    • 数据集大小: 2549533942 字节

配置信息

  • 默认配置
    • 数据文件路径:
      • train: data/train-*
      • validation: data/validation-*
      • test: data/test-*

许可信息

  • 许可证: apache-2.0

语言信息

  • 支持语言: ko(韩语)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作