nomic-ai/gpt4all-j-prompt-generations

Name: nomic-ai/gpt4all-j-prompt-generations
Creator: nomic-ai
Published: 2023-04-24 15:20:43
License: 暂无描述

Hugging Face2023-04-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nomic-ai/gpt4all-j-prompt-generations

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于训练GPT4All-J和GPT4All-J-LoRA模型。我们发布了多个版本的数据集，包括v1.0（原始数据集）、v1.1-breezy（移除了所有`AI language model`实例的过滤数据集）、v1.2-jazzy（进一步移除了类似`Im sorry, I cant answer...`和`AI language model`实例的过滤数据集）和v1.3-groovy（在v1.2基础上添加了ShareGPT和Dolly，并移除了约8%的语义重复数据）。默认数据集为`main`，即v1.0。用户可以通过在`load_dataset`函数中传递`revision`参数来下载特定版本的数据集。

提供机构：

nomic-ai

原始信息汇总

数据集概述

数据集名称

GPT4All-J Prompt Generations

数据集描述

用于训练 GPT4All-J 和 GPT4All-J-LoRA 的数据集。

数据集版本

v1.0: 原始数据集，用于微调 GPT-J。
v1.1-breezy: 过滤后的数据集，移除了所有 AI language model 实例。
v1.2-jazzy: 进一步过滤的数据集，移除了 Im sorry, I cant answer... 和 AI language model 实例。
v1.3-groovy: v1.2 数据集添加了 ShareGPT 和 Dolly，并使用 Atlas 移除了约 8% 的语义重复数据。

数据集默认版本

默认版本为 v1.0。

数据集加载

可通过 load_dataset 函数指定 revision 参数来加载特定版本的数据集。

python from datasets import load_dataset

jazzy = load_dataset("nomic-ai/gpt4all-j-prompt-generations", revision=v1.2-jazzy)

数据集特征

prompt: 数据类型为字符串。
response: 数据类型为字符串。
source: 数据类型为字符串。

数据集分割

train: 大小为 1774285641 字节，包含 808812 个示例。

数据集大小

下载大小: 990673616 字节。
数据集大小: 1774285641 字节。

许可证

Apache-2.0

语言

大小分类

100K<n<1M

5,000+

优质数据集

54 个

任务类型

进入经典数据集