five

TheSkullery/Aether-V1.5

收藏
Hugging Face2024-02-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TheSkullery/Aether-V1.5
下载链接
链接失效反馈
官方服务:
资源简介:
Aether数据集是一个包含人类与GPT对话的重新构建数据集,版本v1.5中增加了系统和工具列。该数据集由多个源数据集合并而成,并经过短语过滤和去重处理,以提高数据的一致性和相关性。数据集规模在1M到10M之间,包含2712289个训练样本。
提供机构:
TheSkullery
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 许可证: Apache 2.0
  • 数据集大小: 1M<n<10M

数据集结构

  • 特征:
    • conversations:
      • from: 字符串
      • value: 字符串
    • system: 字符串
    • tools: 字符串

数据分割

  • 训练集:
    • 字节数: 4655376981
    • 样本数: 2712289

下载与数据集大小

  • 下载大小: 2446047146
  • 数据集大小: 4655376981

配置

  • 默认配置:
    • 数据文件:
      • 分割: 训练集
      • 路径: data/train-*

标签

  • 不适用于所有受众

数据集来源

  • 源数据集:
    • grimulkan/bluemoon_Karen_cleaned
    • Doctor-Shotgun/no-robots-sharegpt
    • Locutusque/hercules-v2.5
    • jondurbin/airoboros-3.2
    • openerotica/freedom-rp
    • teknium/OpenHermes-2.5
    • Doctor-Shotgun/capybara-sharegpt
    • KaraKaraWitch/PIPPA-ShareGPT-formatted
    • Locutusque/bagel-clean-v0.3-shuffled

数据处理

  • 移除的短语和数据:
    • 为了提高数据集的一致性和相关性,某些短语已被选择性移除。每个数据集都经过一个“关键”短语列表的筛选。
    • 筛选统计:
      • 移除的总对象数: 72114
    • 去重:
      • 初始行数: 3296307
      • 最终行数: 2728791
      • 移除的行数: 567516
    • 筛选短语:
      • Couldnt help but
      • Cant resist
      • Im sorry, but
      • As an AI
      • However, it is important to
      • Cannot provide
      • 以及其他
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作