Aether-Lite-v1.8.1

Hugging Face2024-06-21 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/TheSkullery/Aether-Lite-v1.8.1

下载链接

链接失效反馈

官方服务：

资源简介：

Aether Lite数据集旨在平衡创意写作、Slop和智能。该数据集由SteelSkull创建，版本为1.8.1，主要更新包括移除了导致问题的'token_distribution'列，并添加了新的功能，如数据集使用百分比、数据集洗牌和新模糊去重方法。数据集处理统计显示，最高使用了22个CPU和92GB RAM，总处理时间约为12.5小时。数据集格式包括多个特征，如对话、系统、工具、来源、脚本版本、人类令牌计数、GPT令牌计数和处理时间（毫秒）。此外，数据集还整合了多个其他数据集，如jondurbin/airoboros-3.2和jtatman/medical-sci-instruct-100k-sharegpt等，并详细列出了每个数据集的使用情况。数据集创建过程包括模型和分词器准备、数据过滤和转换、数据块处理和文件写入、去重和合并等步骤，最终输出为单一的Parquet文件。

创建时间：

2024-06-21

原始信息汇总

数据集信息

特征

conversations: 列表
- from: 字符串
- value: 字符串
system: 字符串
tools: 字符串
origin: 字符串
script_version: 字符串
human_token_count: 整数
gpt_token_count: 整数
processing_time_ms: 浮点数

数据分割

train:
- 字节数: 390450861
- 样本数: 125119

下载和数据集大小

下载大小: 223944633 字节
数据集大小: 390450861 字节

配置

config_name: default
- data_files:
  - split: train
  - path: data/train-*

许可证

cc-by-sa-4.0

语言

大小类别

100K<n<1M

搜集汇总

数据集介绍

构建方式

Aether-Lite-v1.8.1数据集的构建过程经过精心设计，涵盖了多个关键步骤。首先，通过预训练的FastText语言模型对数据集条目进行语言检测，确保数据的语言一致性。随后，利用正则表达式生成和文本清理技术，移除不必要的内容和特定短语。接着，通过对话过滤和记录转换，确保每条对话的质量和相关性。数据处理过程中，采用了分块处理和文件写入策略，以优化内存和CPU使用效率。最后，通过Spark会话初始化、文本嵌入和余弦相似度计算，实现了大规模数据的去重和合并，生成了最终的Parquet文件。

使用方法

Aether-Lite-v1.8.1数据集的使用方法灵活多样，适用于多种自然语言处理任务。研究者可以通过加载Parquet文件，直接访问数据集中的对话、系统提示和工具使用记录等信息。数据集的分块处理和去重策略使得其在大规模数据处理场景下表现出色。此外，数据集还支持通过预定义的百分比进行数据采样，便于在不同实验条件下进行对比分析。通过结合文本嵌入和余弦相似度计算，研究者可以进一步探索数据的内在结构和语义关系，为模型训练和评估提供有力支持。

背景与挑战

背景概述

Aether-Lite-v1.8.1数据集由SteelSkull创建，旨在平衡创意写作、Slop和智能表现。该数据集整合了多个来源的数据，包括jondurbin/airoboros-3.2、jtatman/medical-sci-instruct-100k-sharegpt等，涵盖了角色扮演、写作提示、推理、医学指导等多个领域。数据集通过复杂的处理流程，包括数据分块、清洗、模糊去重等步骤，最终生成了一个包含125,119个样本的高质量数据集。该数据集的设计目标是为自然语言处理模型提供多样化的训练数据，以提升其在创意写作和智能推理方面的表现。

当前挑战

Aether-Lite-v1.8.1数据集在构建过程中面临多重挑战。首先，数据来源的多样性和复杂性要求对数据进行严格的清洗和去重处理，以确保数据质量。其次，模糊去重算法的实现需要高效处理大规模数据，同时保持较高的去重精度。此外，数据集的构建过程中还需解决内存和CPU资源的高消耗问题，尤其是在处理大规模数据时，如何优化资源利用成为关键挑战。最后，数据集的多样性和平衡性要求在不同领域数据之间进行合理分配，以确保模型在不同任务上的表现均衡。

常用场景

经典使用场景

Aether-Lite-v1.8.1数据集在自然语言处理领域中被广泛应用于对话系统的训练与优化。其核心应用场景包括生成式对话模型的微调、多轮对话系统的开发以及智能助手的性能提升。通过包含丰富的对话数据，该数据集能够有效支持模型在复杂对话场景中的表现，尤其是在创造性写作、推理和角色扮演等任务中展现出卓越的能力。

解决学术问题

Aether-Lite-v1.8.1数据集解决了对话生成模型在多样性和一致性之间的平衡问题。通过引入模糊去重技术和多源数据融合，该数据集显著减少了重复数据对模型训练的干扰，同时保留了高质量、多样化的对话样本。此外，其包含的医学、推理和角色扮演等领域的对话数据，为跨领域对话系统的研究提供了重要支持，推动了对话生成技术的进一步发展。

实际应用

在实际应用中，Aether-Lite-v1.8.1数据集被广泛用于开发智能客服、虚拟助手和教育领域的对话系统。其高质量的多轮对话数据能够显著提升系统的交互体验，尤其是在处理复杂用户请求时表现出色。此外，该数据集还被用于医学领域的智能问答系统开发，帮助医生和患者快速获取准确的医学信息。

数据集最近研究