five

nomic-ai/gpt4all-j-prompt-generations

收藏
Hugging Face2023-04-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nomic-ai/gpt4all-j-prompt-generations
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于训练GPT4All-J和GPT4All-J-LoRA模型。我们发布了多个版本的数据集,包括v1.0(原始数据集)、v1.1-breezy(移除了所有`AI language model`实例的过滤数据集)、v1.2-jazzy(进一步移除了类似`Im sorry, I cant answer...`和`AI language model`实例的过滤数据集)和v1.3-groovy(在v1.2基础上添加了ShareGPT和Dolly,并移除了约8%的语义重复数据)。默认数据集为`main`,即v1.0。用户可以通过在`load_dataset`函数中传递`revision`参数来下载特定版本的数据集。
提供机构:
nomic-ai
原始信息汇总

数据集概述

数据集名称

GPT4All-J Prompt Generations

数据集描述

用于训练 GPT4All-JGPT4All-J-LoRA 的数据集。

数据集版本

  • v1.0: 原始数据集,用于微调 GPT-J。
  • v1.1-breezy: 过滤后的数据集,移除了所有 AI language model 实例。
  • v1.2-jazzy: 进一步过滤的数据集,移除了 Im sorry, I cant answer...AI language model 实例。
  • v1.3-groovy: v1.2 数据集添加了 ShareGPT 和 Dolly,并使用 Atlas 移除了约 8% 的语义重复数据。

数据集默认版本

默认版本为 v1.0

数据集加载

可通过 load_dataset 函数指定 revision 参数来加载特定版本的数据集。

python from datasets import load_dataset

jazzy = load_dataset("nomic-ai/gpt4all-j-prompt-generations", revision=v1.2-jazzy)

数据集特征

  • prompt: 数据类型为字符串。
  • response: 数据类型为字符串。
  • source: 数据类型为字符串。

数据集分割

  • train: 大小为 1774285641 字节,包含 808812 个示例。

数据集大小

  • 下载大小: 990673616 字节。
  • 数据集大小: 1774285641 字节。

许可证

Apache-2.0

语言

  • en

大小分类

  • 100K<n<1M
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作