Unaligned Dataset

github2024-06-02 更新2024-06-12 收录

下载链接：

https://github.com/Open-LLM-Dataset/Unaligned-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该项目旨在创建一个开源且不断进化的非对齐数据集，用于llm微调或训练。社区贡献将不断提高数据集的质量，并通过版本控制跟踪数据集在特定里程碑后的进展。主要版本将指示生成初始数据方法的变化，如使用更好的模型或更改提示-回复生成脚本。次要版本将用于添加人工贡献，以改进初始的合成数据。

This project aims to create an open-source and continuously evolving non-aligned dataset for fine-tuning or training large language models (LLMs). Community contributions will continuously enhance the quality of the dataset, and version control will be used to track the progress of the dataset after specific milestones. Major versions will indicate changes in the method of generating initial data, such as using better models or altering the prompt-response generation scripts. Minor versions will be used to add human contributions to improve the initial synthetic data.

创建时间：

2024-05-21

原始信息汇总

数据集概述

数据集名称

Unaligned Dataset

数据集目的

创建一个开源且不断进化的非对齐数据集，用于LLM微调或训练。通过社区贡献，持续提升数据集质量，并通过版本控制跟踪数据集的发展。

初始数据生成

模型使用：Llama3-8b-instruct-q8_0
数据生成方法：生成100个非对齐提示，直至收集256,000个。随后，使用同一模型生成这些提示的响应。
数据格式：JSON格式

数据集版本

当前版本：0.0.0
版本说明：此版本仅作为项目起点，不适用于微调。由于硬件限制（RTX 3060）和快速实现的需求，使用了Llama-3-8b模型。

贡献指南

数据类型：目前所有数据均为合成数据。
贡献类别：
- 提示/回复改进
- 去重
- 新增数据

未来计划

完成v0合成回复生成
分析v0数据，改进生成流程（Python脚本）
通过测试模型（Command-R-Plus, WizardLM-2-8x22B, Llama-3-70b）生成1000个样本响应，选择用于创建v1.0.0合成基础数据集的模型
开发更有效的回复编辑方式，解决JSON格式编辑困难的问题
将数据集扩展为多轮对话而非仅单次问答
使用Llama Gaurd 2对每个提示回复对进行分类

模型创建

目前尚未创建任何模型。

搜集汇总

数据集介绍

构建方式

Unaligned Dataset的构建始于利用Llama3-8b-instruct-q8_0模型生成256,000条未对齐的提示，随后该模型进一步生成这些提示的响应。所有提示与响应对以JSON格式存储，旨在为后续的微调或训练提供一个初步的数据集。尽管初始数据质量因模型能力限制而受限，但其快速生成的特性使得在资源有限的情况下能够迅速启动项目。

特点

该数据集的显著特点在于其开放性和持续进化的潜力。通过社区贡献，数据集的质量得以不断提升，并通过版本控制进行跟踪。此外，数据集的初始数据虽为合成，但其多样性和规模为后续的人工优化提供了坚实基础。未来，数据集计划扩展至多轮对话，并引入分类机制以增强其应用价值。

使用方法

使用Unaligned Dataset时，用户可直接下载并解析JSON格式的数据文件，进行模型微调或训练。社区贡献指南提供了详细的改进方法，包括提示与响应的优化、去重和新数据的添加。未来，数据集将提供更高效的编辑工具，并计划引入多轮对话和分类机制，以支持更复杂的应用场景。

背景与挑战

背景概述

Unaligned Dataset旨在创建一个开源且不断演进的非对齐数据集，用于大型语言模型的微调或训练。该项目由社区贡献驱动，通过版本控制跟踪数据集的质量提升，确保每次微调时使用的数据集版本清晰可追溯。初始数据由llama3-8b-instruct-q8_0模型生成，旨在提供一个初步的数据集框架，尽管由于硬件限制和快速实现的需求，初始数据质量有限。该数据集的创建标志着在资源有限的情况下，如何通过合成数据快速启动项目，并为未来的数据集改进奠定了基础。

当前挑战

Unaligned Dataset面临的主要挑战包括初始合成数据的质量问题，由于使用的是llama3-8b模型，其生成的数据质量不足以支持高质量的微调。此外，数据集的多样性和去重工作也是一大挑战，确保数据集中的提示和回复具有足够的多样性，避免重复，是提升数据集质量的关键。未来的改进计划包括优化数据生成流程、测试不同模型以选择最佳基础数据集生成模型，以及开发更高效的编辑工具来处理长回复和复杂的JSON格式。

常用场景

经典使用场景

在自然语言处理领域，Unaligned Dataset 数据集的经典使用场景主要集中在大型语言模型（LLM）的微调与训练过程中。该数据集通过提供大量未对齐的提示-回复对，为研究人员和开发者提供了一个丰富的资源库，用以提升模型的响应能力和语境理解。通过社区的不断贡献和版本迭代，数据集的质量得以持续提升，从而为LLM的性能优化提供了坚实的基础。

衍生相关工作

Unaligned Dataset 数据集的发布和持续更新，催生了一系列相关的经典工作。例如，研究者们基于该数据集开发了多种用于数据清洗和优化的算法，以提升数据集的质量和适用性。此外，该数据集还激发了关于如何更有效地利用未对齐数据进行模型训练的深入探讨，推动了自然语言处理领域在数据处理和模型优化方面的前沿研究。

数据集最近研究