nomic-ai/gpt4all-j-prompt-generations
收藏Hugging Face2023-04-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nomic-ai/gpt4all-j-prompt-generations
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于训练GPT4All-J和GPT4All-J-LoRA模型。我们发布了多个版本的数据集,包括v1.0(原始数据集)、v1.1-breezy(移除了所有`AI language model`实例的过滤数据集)、v1.2-jazzy(进一步移除了类似`Im sorry, I cant answer...`和`AI language model`实例的过滤数据集)和v1.3-groovy(在v1.2基础上添加了ShareGPT和Dolly,并移除了约8%的语义重复数据)。默认数据集为`main`,即v1.0。用户可以通过在`load_dataset`函数中传递`revision`参数来下载特定版本的数据集。
提供机构:
nomic-ai
原始信息汇总
数据集概述
数据集名称
GPT4All-J Prompt Generations
数据集描述
用于训练 GPT4All-J 和 GPT4All-J-LoRA 的数据集。
数据集版本
- v1.0: 原始数据集,用于微调 GPT-J。
- v1.1-breezy: 过滤后的数据集,移除了所有
AI language model实例。 - v1.2-jazzy: 进一步过滤的数据集,移除了
Im sorry, I cant answer...和AI language model实例。 - v1.3-groovy: v1.2 数据集添加了 ShareGPT 和 Dolly,并使用 Atlas 移除了约 8% 的语义重复数据。
数据集默认版本
默认版本为 v1.0。
数据集加载
可通过 load_dataset 函数指定 revision 参数来加载特定版本的数据集。
python from datasets import load_dataset
jazzy = load_dataset("nomic-ai/gpt4all-j-prompt-generations", revision=v1.2-jazzy)
数据集特征
- prompt: 数据类型为字符串。
- response: 数据类型为字符串。
- source: 数据类型为字符串。
数据集分割
- train: 大小为 1774285641 字节,包含 808812 个示例。
数据集大小
- 下载大小: 990673616 字节。
- 数据集大小: 1774285641 字节。
许可证
Apache-2.0
语言
- en
大小分类
- 100K<n<1M



