TheSkullery/Aether-Lite-v1.8
收藏Hugging Face2024-06-23 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/TheSkullery/Aether-Lite-v1.8
下载链接
链接失效反馈官方服务:
资源简介:
Aether Lite数据集旨在平衡创意写作、Slop和智能。该数据集包含了多种类型的数据,如RP、写作、推理、指导和医学等。数据集通过一系列处理步骤生成,包括去重、过滤、清洗和转换等,最终生成一个经过处理的Parquet文件。数据集的结构包括对话、系统信息、工具、来源、脚本版本、人类和GPT的token计数、token分布和处理时间等字段。
The Aether-Lite dataset is designed to balance creative writing, Slop, and intelligence. It includes features such as conversations, system information, tools, origin, script version, token counts, and processing time. The dataset creation process involves chunking, processing, cleaning, fuzzy deduplication, and removal of specific robot phrases. Visualizations are provided to demonstrate the impact of the deduplication process using PCA, t-SNE, and UMAP.
提供机构:
TheSkullery
原始信息汇总
数据集概述
许可证
- 数据集遵循 cc-by-sa-4.0 许可证。
数据集信息
- 特征列表:
conversations:对话列表from:字符串类型,表示对话来源value:字符串类型,表示对话内容
system:字符串类型,表示系统信息tools:字符串类型,表示工具信息origin:字符串类型,表示数据集来源script_version:字符串类型,表示脚本版本human_token_count:整数类型,表示人类令牌计数gpt_token_count:整数类型,表示GPT令牌计数token_distribution:整数类型,表示令牌分布processing_time_ms:浮点数类型,表示处理时间(毫秒)
数据分割
- 训练集:
- 字节数:2392354861
- 样本数:125119
数据集大小
- 下载大小:319533563 字节
- 数据集大小:2392354861 字节
配置
- 默认配置:
- 数据文件:
- 分割:训练集
- 路径:
data/train-*
- 数据文件:
数据集处理统计
- 最大CPU使用:22/24
- 最大RAM使用:92GB
- 最大外存使用:80GB
- 总处理时间:约12.5小时
数据集格式
- 对话:
from:字符串类型value:字符串类型
- 系统:字符串类型
- 工具:字符串类型
- 来源:字符串类型
- 脚本版本:字符串类型
- 人类令牌计数:整数类型
- GPT令牌计数:整数类型
- 令牌分布:JSON格式
- 处理时间(毫秒):浮点数类型
使用的数据集
jondurbin/airoboros-3.2:100% 使用jtatman/medical-sci-instruct-100k-sharegpt:20% 使用Doctor-Shotgun/no-robots-sharegpt:100% 使用QuietImpostor/Sao10K-Claude-3-Opus-Instruct-15K-ShareGPT:100% 使用mrfakename/Pure-Dove-ShareGPT:100% 使用PJMixers/grimulkan_theory-of-mind-ShareGPT:100% 使用PJMixers/grimulkan_physical-reasoning-ShareGPT:100% 使用TheSkullery/WizardLM_evol_instruct_v2_Filtered_Fuzzy_Dedup_ShareGPT:25% 使用MinervaAI/Aesir-Preview:100% 使用TheSkullery/Gryphe-Opus-WritingPrompts-merged:100% 使用mpasila/LimaRP-PIPPA-Mix-8K-Context:50% 使用Alignment-Lab-AI/RPGuild-sharegpt-filtered:30% 使用
数据集处理步骤
- 模型和分词器准备:
- 下载并加载预训练的FastText语言模型以检测数据集条目的语言。
- 数据过滤和转换:
- 初始化令牌分布字典以跟踪不同范围内的令牌计数。
- 生成正则表达式以识别和移除数据集中不需要的短语。
- 清理文本,移除或替换换行符。
- 过滤对话,如果第一条人类消息的语言不被接受,或者任何消息包含特定过滤数据或匹配正则表达式,则过滤掉整个对话。
- 转换每条记录,更新令牌计数和令牌分布,并保留相关对话。
- 分块处理和文件写入:
- 对每个数据块应用过滤和转换规则,累积令牌统计信息,并将处理后的数据写入Parquet文件。
- 将处理后的块数据保存到指定目录以进行进一步分析和合并。
- 去重和合并:
- 初始化Spark会话以处理大规模数据。
- 检查并调整Spark DataFrame的模式(如果必要)。
- 使用预训练模型将文本数据编码为嵌入,并使用这些嵌入计算余弦相似度以进行去重。
- 计算嵌入之间的余弦相似度以识别和移除重复条目。
- 使用PCA、t-SNE和UMAP生成去重前后的嵌入可视化。
- 随机化数据集行的顺序以确保多样化和无偏的数据集。
- 根据预定义的使用百分比对每个数据集进行采样。
- 检查并打印最终数据集的模式以确保其符合预期格式。
- 基于余弦相似度对最终数据集进行去重并保存清理后的数据。
- 最终输出:
- 将处理、过滤、去重和打乱的数据集保存为单个Parquet文件。
模糊去重统计
- 起始行数:141369
- 最终行数:125119
- 移除行数:16250
可视化
- 使用PCA、t-SNE和UMAP三种降维技术展示了去重过程的影响。



