TheSkullery/Aether-V1.5
收藏Hugging Face2024-02-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TheSkullery/Aether-V1.5
下载链接
链接失效反馈官方服务:
资源简介:
Aether数据集是一个包含人类与GPT对话的重新构建数据集,版本v1.5中增加了系统和工具列。该数据集由多个源数据集合并而成,并经过短语过滤和去重处理,以提高数据的一致性和相关性。数据集规模在1M到10M之间,包含2712289个训练样本。
提供机构:
TheSkullery
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 许可证: Apache 2.0
- 数据集大小: 1M<n<10M
数据集结构
- 特征:
- conversations:
- from: 字符串
- value: 字符串
- system: 字符串
- tools: 字符串
- conversations:
数据分割
- 训练集:
- 字节数: 4655376981
- 样本数: 2712289
下载与数据集大小
- 下载大小: 2446047146
- 数据集大小: 4655376981
配置
- 默认配置:
- 数据文件:
- 分割: 训练集
- 路径: data/train-*
- 数据文件:
标签
- 不适用于所有受众
数据集来源
- 源数据集:
- grimulkan/bluemoon_Karen_cleaned
- Doctor-Shotgun/no-robots-sharegpt
- Locutusque/hercules-v2.5
- jondurbin/airoboros-3.2
- openerotica/freedom-rp
- teknium/OpenHermes-2.5
- Doctor-Shotgun/capybara-sharegpt
- KaraKaraWitch/PIPPA-ShareGPT-formatted
- Locutusque/bagel-clean-v0.3-shuffled
数据处理
- 移除的短语和数据:
- 为了提高数据集的一致性和相关性,某些短语已被选择性移除。每个数据集都经过一个“关键”短语列表的筛选。
- 筛选统计:
- 移除的总对象数: 72114
- 去重:
- 初始行数: 3296307
- 最终行数: 2728791
- 移除的行数: 567516
- 筛选短语:
- Couldnt help but
- Cant resist
- Im sorry, but
- As an AI
- However, it is important to
- Cannot provide
- 以及其他



