Fullmoon-Light

Hugging Face2024-09-02 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/ParasiticRogue/Fullmoon-Light

下载链接

链接失效反馈

官方服务：

资源简介：

Bluemoon-Light数据集的最终版本，经过彻底清理和语法检查，每行包含约2000个令牌，总共有1006行。数据集优化了parquet量化，如exl2或gguf，增强了模型稳定性。格式上，移除了星号并用撇号替换，以避免量化时的格式切换问题。更新了Nemo parquet并删除了旧版本。

创建时间：

2024-09-02

原始信息汇总

Fullmoon-Light 数据集概述

基本信息

许可证: Apache 2.0
任务类别: 文本生成
语言: 英语
标签: 不适合所有观众

数据集描述

版本: 最终版 Bluemoon-Light 数据集，经过三次修剪、清洁和语法检查。
处理流程:
1. 由我去除明显的无用内容。
2. 由AI进行语法/拼写检查并添加修正，如在对话中添加引号。
3. 再次由我检查，确保AI没有添加无用内容。
编辑目的: 为更好的parquet量化（如exl2或gguf）进行编辑，使模型在使用时更稳定。
数据结构:
- 每行长度略高于或低于2000个令牌（共1006行），每侧有额外停止令牌以提高性能。
- 超过3000个令牌的行被拆分为多个部分，并调整到数据集的末尾。
量化使用:
- 最大长度和行数：
  - 8192 + 123
  - 4096 + 246
  - 2048（默认）+ 492

更新记录

编辑1:
- 移除了用于内部思想包装的星号，替换为撇号，以减少量化时在小说格式和特定RP格式之间的切换。
- 删除了旧的Nemo parquet，更新为新的版本。
- 自动转换机器人可能仍在使用旧数据集，建议使用主页上的parquet。

搜集汇总

数据集介绍

构建方式

Fullmoon-Light数据集是基于Bluemoon-Light数据集的最终版本，经过多次精细化的清理和校对。首先，作者手动去除了明显的无用信息，随后通过AI进行语法和拼写检查，并修复了诸如对话中缺少引号等问题。最后，作者再次检查以确保AI未引入新的问题。数据集还针对parquet量化进行了优化，以确保在生成模型时具有更高的稳定性。每行数据控制在2000个标记以内，超过3000个标记的行被分割并放置在数据集的后部。

特点

Fullmoon-Light数据集的特点在于其高度的清洁度和优化后的结构。每行数据的长度控制在2000个标记以内，并添加了额外的停止标记以提升性能。数据集经过多次编辑，包括去除不必要的符号、修复格式问题以及替换部分文件以优化量化效果。此外，数据集还提供了多种量化配置选项，以适应不同的模型需求。

使用方法

Fullmoon-Light数据集适用于文本生成任务，特别是在生成创意内容时表现出色。用户可以根据需求选择不同的量化配置，如8192、4096或2048标记长度，并结合相应的行数限制进行使用。数据集的主页提供了多个parquet文件，用户应根据具体模型架构选择合适的版本。此外，ChatML格式的parquet文件在Qwen模型上表现更佳，建议用户根据模型特性进行选择。

背景与挑战

背景概述

Fullmoon-Light数据集是基于Bluemoon-Light数据集的最终版本，经过多次修剪、清理和语法检查，旨在提升文本生成任务的质量和稳定性。该数据集由个人开发者精心维护，经过人工和AI的双重校对，确保文本的准确性和一致性。数据集的主要应用场景为文本生成模型的量化优化，特别是在使用exl2或gguf等量化技术时，能够提升模型在创造性任务中的表现。数据集包含1005行文本，每行长度控制在2000个标记以内，适用于不同长度的量化需求。

当前挑战

Fullmoon-Light数据集在构建过程中面临多重挑战。首先，文本生成领域对数据的质量和一致性要求极高，数据集需经过多次人工和AI的校对，以确保语法、拼写和格式的准确性。其次，数据集的量化优化要求文本长度和格式的严格控制，过长或格式不统一的文本需被拆分或调整，以满足不同量化技术的需求。此外，数据集的持续更新和维护也带来了挑战，开发者需不断修复格式问题、删除重复内容，并优化量化效果，以适应不同模型架构的需求。这些挑战不仅考验数据集的构建技术，也对模型的量化性能提出了更高的要求。

常用场景

经典使用场景

Fullmoon-Light数据集在文本生成领域具有广泛的应用，特别是在创意写作和角色扮演（RP）场景中。该数据集经过多次清理和语法检查，确保了文本的高质量和一致性，使其成为生成连贯且富有创意的文本的理想选择。研究人员和开发者可以利用该数据集训练模型，生成符合特定格式和风格的文本内容。

衍生相关工作

Fullmoon-Light数据集的发布催生了一系列相关研究工作，特别是在文本生成模型的优化和量化方面。许多研究基于该数据集开发了新的量化方法，如exl2和gguf，进一步提升了模型在生成文本时的稳定性和效率。此外，该数据集还启发了对文本格式和风格转换的研究，推动了文本生成技术在创意写作和角色扮演领域的深入应用。

数据集最近研究