five

p1atdev/ichikara-instruction

收藏
Hugging Face2024-03-12 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/p1atdev/ichikara-instruction
下载链接
链接失效反馈
官方服务:
资源简介:
ichikara-instruction数据集是一个为大型语言模型(LLM)设计的日语指令数据集。该数据集包含多个配置,每个配置都有ID、文本和输出三个特征,并且所有配置都只有一个训练分割。数据集的总大小在1K到10K之间,适用于文本生成任务。数据集的许可证为cc-by-nc-sa-4.0,仅限非商业用途。该数据集在语言处理学会第30届年会上进行了发布,相关论文可在指定链接中查看。

ichikara-instruction数据集是一个为大型语言模型(LLM)设计的日语指令数据集。该数据集包含多个配置,每个配置都有ID、文本和输出三个特征,并且所有配置都只有一个训练分割。数据集的总大小在1K到10K之间,适用于文本生成任务。数据集的许可证为cc-by-nc-sa-4.0,仅限非商业用途。该数据集在语言处理学会第30届年会上进行了发布,相关论文可在指定链接中查看。
提供机构:
p1atdev
原始信息汇总

数据集概述

数据集信息

  • 配置名称: 20231115-1

    • 特征:
      • ID: string
      • text: string
      • output: string
    • 分割:
      • train:
        • 字节数: 2007875
        • 样本数: 1729
    • 下载大小: 1148243
    • 数据集大小: 2007875
  • 配置名称: 20231115-2

    • 特征:
      • ID: string
      • text: string
      • output: string
    • 分割:
      • train:
        • 字节数: 341973
        • 样本数: 316
    • 下载大小: 179947
    • 数据集大小: 341973
  • 配置名称: 20231115-5

    • 特征:
      • ID: string
      • text: string
      • output: string
    • 分割:
      • train:
        • 字节数: 976579
        • 样本数: 858
    • 下载大小: 434425
    • 数据集大小: 976579
  • 配置名称: 20231221-002

    • 特征:
      • ID: string
      • text: string
      • output: string
    • 分割:
      • train:
        • 字节数: 3018531
        • 样本数: 1899
    • 下载大小: 1633772
    • 数据集大小: 3018531
  • 配置名称: 20231221-003

    • 特征:
      • ID: string
      • text: string
      • output: string
    • 分割:
      • train:
        • 字节数: 3018541
        • 样本数: 1899
    • 下载大小: 1633766
    • 数据集大小: 3018541

配置信息

  • 配置名称: 20231115-1

    • 数据文件:
      • 分割: train
      • 路径: 20231115-1/train-*
  • 配置名称: 20231115-2

    • 数据文件:
      • 分割: train
      • 路径: 20231115-2/train-*
  • 配置名称: 20231115-5

    • 数据文件:
      • 分割: train
      • 路径: 20231115-5/train-*
  • 配置名称: 20231221-002

    • 数据文件:
      • 分割: train
      • 路径: 20231221-002/train-*
  • 配置名称: 20231221-003

    • 数据文件:
      • 分割: train
      • 路径: 20231221-003/train-*

其他信息

  • 许可证: cc-by-nc-sa-4.0
  • 任务类别: text-generation
  • 语言: ja
  • 友好名称: ichikara-instruction
  • 大小类别: 1K<n<10K
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作