five

Dampish/GPT-NEO-PRE-S

收藏
Hugging Face2023-04-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Dampish/GPT-NEO-PRE-S
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-nc-4.0 dataset_info: features: - name: instruction dtype: string - name: input dtype: string - name: output dtype: string - name: input_ids sequence: int32 - name: attention_mask sequence: int8 splits: - name: train num_bytes: 2891461681 num_examples: 631070 download_size: 667909351 dataset_size: 2891461681 ---

许可证:知识共享署名-非商业性使用4.0国际许可协议(CC BY-NC 4.0) 数据集信息: 特征项: - 名称:指令(instruction),数据类型:字符串 - 名称:输入(input),数据类型:字符串 - 名称:输出(output),数据类型:字符串 - 名称:输入Token序列(input_ids),数据类型:int32序列 - 名称:注意力掩码(attention_mask),数据类型:int8序列 数据集划分: - 名称:训练集(train),字节大小:2891461681,样本数量:631070 下载大小:667909351 数据集总大小:2891461681
提供机构:
Dampish
原始信息汇总

数据集概述

数据集特征

  • instruction:数据类型为字符串。
  • input:数据类型为字符串。
  • output:数据类型为字符串。
  • input_ids:数据类型为整数序列,具体为32位整数。
  • attention_mask:数据类型为整数序列,具体为8位整数。

数据集划分

  • train
    • 数据量:2,891,461,681字节
    • 示例数量:631,070个

数据集大小

  • 下载大小:667,909,351字节
  • 数据集总大小:2,891,461,681字节

许可证

  • 本数据集遵循CC-BY-NC-4.0许可证。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作