TheSkullery/Aether-Lite-v1.8

Name: TheSkullery/Aether-Lite-v1.8
Creator: TheSkullery
Published: 2024-06-23 12:44:20
License: 暂无描述

Hugging Face2024-06-23 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/TheSkullery/Aether-Lite-v1.8

下载链接

链接失效反馈

官方服务：

资源简介：

Aether Lite数据集旨在平衡创意写作、Slop和智能。该数据集包含了多种类型的数据，如RP、写作、推理、指导和医学等。数据集通过一系列处理步骤生成，包括去重、过滤、清洗和转换等，最终生成一个经过处理的Parquet文件。数据集的结构包括对话、系统信息、工具、来源、脚本版本、人类和GPT的token计数、token分布和处理时间等字段。

The Aether-Lite dataset is designed to balance creative writing, Slop, and intelligence. It includes features such as conversations, system information, tools, origin, script version, token counts, and processing time. The dataset creation process involves chunking, processing, cleaning, fuzzy deduplication, and removal of specific robot phrases. Visualizations are provided to demonstrate the impact of the deduplication process using PCA, t-SNE, and UMAP.

提供机构：

TheSkullery

原始信息汇总

数据集概述

许可证

数据集遵循 cc-by-sa-4.0 许可证。

数据集信息

特征列表：
- conversations：对话列表
  - from：字符串类型，表示对话来源
  - value：字符串类型，表示对话内容
- system：字符串类型，表示系统信息
- tools：字符串类型，表示工具信息
- origin：字符串类型，表示数据集来源
- script_version：字符串类型，表示脚本版本
- human_token_count：整数类型，表示人类令牌计数
- gpt_token_count：整数类型，表示GPT令牌计数
- token_distribution：整数类型，表示令牌分布
- processing_time_ms：浮点数类型，表示处理时间（毫秒）

数据分割

训练集：
- 字节数：2392354861
- 样本数：125119

数据集大小

下载大小：319533563 字节
数据集大小：2392354861 字节

配置

默认配置：
- 数据文件：
  - 分割：训练集
  - 路径：data/train-*

数据集处理统计

最大CPU使用：22/24
最大RAM使用：92GB
最大外存使用：80GB
总处理时间：约12.5小时

数据集格式

对话：
- from：字符串类型
- value：字符串类型
系统：字符串类型
工具：字符串类型
来源：字符串类型
脚本版本：字符串类型
人类令牌计数：整数类型
GPT令牌计数：整数类型
令牌分布：JSON格式
处理时间（毫秒）：浮点数类型

使用的数据集

jondurbin/airoboros-3.2：100% 使用
jtatman/medical-sci-instruct-100k-sharegpt：20% 使用
Doctor-Shotgun/no-robots-sharegpt：100% 使用
QuietImpostor/Sao10K-Claude-3-Opus-Instruct-15K-ShareGPT：100% 使用
mrfakename/Pure-Dove-ShareGPT：100% 使用
PJMixers/grimulkan_theory-of-mind-ShareGPT：100% 使用
PJMixers/grimulkan_physical-reasoning-ShareGPT：100% 使用
TheSkullery/WizardLM_evol_instruct_v2_Filtered_Fuzzy_Dedup_ShareGPT：25% 使用
MinervaAI/Aesir-Preview：100% 使用
TheSkullery/Gryphe-Opus-WritingPrompts-merged：100% 使用
mpasila/LimaRP-PIPPA-Mix-8K-Context：50% 使用
Alignment-Lab-AI/RPGuild-sharegpt-filtered：30% 使用

数据集处理步骤

模型和分词器准备：
- 下载并加载预训练的FastText语言模型以检测数据集条目的语言。
数据过滤和转换：
- 初始化令牌分布字典以跟踪不同范围内的令牌计数。
- 生成正则表达式以识别和移除数据集中不需要的短语。
- 清理文本，移除或替换换行符。
- 过滤对话，如果第一条人类消息的语言不被接受，或者任何消息包含特定过滤数据或匹配正则表达式，则过滤掉整个对话。
- 转换每条记录，更新令牌计数和令牌分布，并保留相关对话。
分块处理和文件写入：
- 对每个数据块应用过滤和转换规则，累积令牌统计信息，并将处理后的数据写入Parquet文件。
- 将处理后的块数据保存到指定目录以进行进一步分析和合并。
去重和合并：
- 初始化Spark会话以处理大规模数据。
- 检查并调整Spark DataFrame的模式（如果必要）。
- 使用预训练模型将文本数据编码为嵌入，并使用这些嵌入计算余弦相似度以进行去重。
- 计算嵌入之间的余弦相似度以识别和移除重复条目。
- 使用PCA、t-SNE和UMAP生成去重前后的嵌入可视化。
- 随机化数据集行的顺序以确保多样化和无偏的数据集。
- 根据预定义的使用百分比对每个数据集进行采样。
- 检查并打印最终数据集的模式以确保其符合预期格式。
- 基于余弦相似度对最终数据集进行去重并保存清理后的数据。
最终输出：
- 将处理、过滤、去重和打乱的数据集保存为单个Parquet文件。

模糊去重统计

起始行数：141369
最终行数：125119
移除行数：16250

可视化

使用PCA、t-SNE和UMAP三种降维技术展示了去重过程的影响。

5,000+

优质数据集

54 个

任务类型

进入经典数据集