Apocrypha

Hugging Face2024-10-11 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Replete-AI/Apocrypha

下载链接

链接失效反馈

官方服务：

资源简介：

Apocrypha 169k数据集旨在探索大型语言模型（LLMs）的真实能力和极限。它挑战了LLMs作为简单助手的传统角色，而是旨在模拟一个更无限制的AI角色。该数据集包括对GPT slop、Claude slop和Assistant slop的过滤，并纳入了通常在企业数据集中受限的内容。它强调创造性、非常规和多样化的语言使用，并将情感合成到文本模式中。数据集使用两个主要数据管道创建：交互体验生成器和系统提示生成管道。数据集结构包括主数据集文件、详细映射情感到其因果体验的电子表格，以及一个全面文档，列出LLMs '不能做'的事情。该数据集的目的是扩展LLMs的能力，并促进它们作为全面语言模型的潜力。数据集采用Apache 2.0许可证。

创建时间：

2024-09-28

原始信息汇总

Apocrypha 数据集概述

基本信息

数据集名称: Apocrypha
许可证: Apache 2.0
创建者: Stanley Sebastian
配置:
- 配置名称: default
- 数据文件:
  - 分割: train
  - 路径: Apocrypha.jsonl

数据集描述

目的: 探索大语言模型（LLMs）的真实能力和极限，挑战传统上将模型限制为助手角色的观念。
特点:
- 过滤了 GPT slop、Claude slop 和 Assistant slop。
- 包含通常在企业数据集中受限的内容。
- 强调创造性、非传统和多样化的语言使用。
- 将情感合成到文本模式中，包括引发情感的体验及其抽象表示。

数据集结构

Apocrypha.jsonl: 经过过滤、清理和去重后的完整数据集。
Emotions_and_Experiences.pdf: 详细映射情感与其因果体验的表格，合成到少样本提示中。
List of Things LLMs "Cant Do": 包含前沿 LLMs 列出他们被训练所限制的内容的全面文档，合成到少样本提示中以生成数据，专门训练他们参与这些活动。

数据管道

Interactive Experiences Generator: 生成多样化和真实的 ShareGPT 格式多轮交互。
System Prompts Generation Pipeline: 创建更灵活和上下文感知的 ShareGPT 格式系统提示。

伦理考虑

该数据集包含通常在企业环境中受限的内容，设计用于研究目的，扩展 LLM 能力的边界。用户应在使用时谨慎并进行伦理判断。

致谢

该数据集是与各种 LLMs 进行广泛研究和互动的结果。特别感谢 AI 研究社区为这种替代语言模型训练方法提供的灵感。

搜集汇总

数据集介绍

构建方式

Apocrypha数据集的构建采用了两种主要的数据管道。第一种是交互式体验生成器，通过获取API密钥、创建少样本提示、排除特定词汇或短语，并运行管道生成多样化的多轮交互数据，随后进行去重处理。第二种是系统提示生成管道，通过提供ShareGPT数据集，并让模型生成系统提示，适用于任何感兴趣的领域。这两种管道协同工作，旨在突破传统语言模型训练的界限，生成更具表达力和多样性的数据集。

特点

Apocrypha数据集的特点在于其多样性和创新性。它过滤了GPT、Claude和助手模型中的低质量内容，包含了通常在企业数据集中受限的内容，并强调创造性、非传统和多样化的语言使用。此外，数据集还通过将情感及其引发体验合成为文本模式，进一步丰富了语言表达。数据集经过Nemotron 70B Reward的清洗，确保了数据的高质量。

使用方法

Apocrypha数据集的使用方法主要围绕其多样化的内容展开。用户可以通过加载Apocrypha.jsonl文件，获取经过过滤、清洗和去重的完整数据集。对于研究语言模型能力的用户，Emotions_and_Experiences.pdf文件提供了情感与体验的详细映射，可用于生成少样本提示。此外，List of Things LLMs 'Can't Do'文档为训练模型提供了挑战性任务。用户应结合研究目的，谨慎使用这些数据，以探索语言模型的潜力。

背景与挑战

背景概述

Apocrypha数据集由Stanley Sebastian创建，旨在探索大型语言模型（LLMs）的真正能力与局限。该数据集的核心研究问题在于突破传统LLMs作为助手的角色限制，强调其作为语言模型的本质功能。通过过滤GPT、Claude等模型的冗余内容，并引入通常在企业数据集中受限的内容，Apocrypha数据集致力于推动LLMs在创造性、多样性和情感表达方面的潜力。其创建过程结合了交互式体验生成器和系统提示生成器两大数据管道，旨在生成更具多样性和真实性的多轮交互数据。该数据集不仅挑战了LLMs的传统训练边界，还为研究社区提供了新的视角，以更全面地理解人类语言的复杂性。

当前挑战

Apocrypha数据集在构建过程中面临多重挑战。首先，如何有效过滤GPT、Claude等模型的冗余内容，同时保留高质量的语言模式，是一个技术难题。其次，生成多样且真实的交互数据需要复杂的管道设计和精细的提示工程，以确保数据的多样性和真实性。此外，数据集包含通常在企业数据集中受限的内容，这要求研究者在数据生成和清理过程中平衡创新与伦理风险。最后，如何将情感及其触发经验转化为文本模式，并确保其抽象表达的准确性，也是数据集构建中的一大挑战。这些挑战不仅考验了数据生成的技术能力，也对LLMs的训练和应用提出了新的要求。

常用场景

经典使用场景

Apocrypha数据集在自然语言处理领域中被广泛用于探索语言模型的极限和潜力。通过其独特的交互式体验生成器和系统提示生成管道，该数据集能够模拟多样化的多轮对话，涵盖从角色扮演到编程辩论等多种场景。这种设计使得Apocrypha成为研究语言模型在复杂对话中表现的重要工具。

衍生相关工作

Apocrypha数据集衍生了一系列相关研究，特别是在语言模型的多功能性和表达能力方面。例如，基于该数据集的研究工作探索了如何通过情感和经验的文本模式合成来增强语言模型的情感理解能力。此外，该数据集还启发了对语言模型在受限内容生成中的潜力的研究，推动了该领域的进一步发展。

数据集最近研究