five

erfanzar/UltraChat-Mixin

收藏
Hugging Face2023-09-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/erfanzar/UltraChat-Mixin
下载链接
链接失效反馈
官方服务:
资源简介:
UltraChat-Mixin数据集是由stingning/ultrachat、jondurbin/airoboros-2.1和erfanzar/GPT4-8K三个数据集混合而成,旨在训练对话AI模型。数据集包含对话、用户消息、助手响应、系统消息和唯一标识符等特征。数据集仅包含一个训练分割,包含1,478,011个示例,大小约为18,719,148,590字节。下载大小约为9,422,934,646字节。
提供机构:
erfanzar
原始信息汇总

UltraChat-Mixin 数据集概述

概述

UltraChat-Mixin 是一个由三个数据集混合而成的数据集,包括 stingning/ultrachat、jondurbin/airoboros-2.1 和 erfanzar/GPT4-8K。该数据集旨在用于训练对话式AI模型。

数据集配置

数据集配置如下:

yaml configs:

  • config_name: default data_files:
    • split: train path: data/train-* dataset_info: features:
    • name: dialog sequence: string
    • name: user sequence: string
    • name: assistant sequence: string
    • name: system dtype: string
    • name: id dtype: int64 splits:
    • name: train num_bytes: 18719148590 num_examples: 1478011 download_size: 9422934646 dataset_size: 18719148590

特征

UltraChat-Mixin 数据集包含以下特征:

  • dialog: 表示对话内容的字符串序列。
  • user: 表示用户消息的字符串序列。
  • assistant: 表示助手响应的字符串序列。
  • system: 表示系统消息的字符串。
  • id: 表示每个示例唯一标识的整数。

分割

数据集包含一个分割:

  • train: 用于训练对话式AI模型,包含 1,478,011 个示例,大小约为 18,719,148,590 字节。

下载大小

UltraChat-Mixin 数据集的下载大小约为 9,422,934,646 字节。

数据集大小

UltraChat-Mixin 数据集的总大小约为 18,719,148,590 字节。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作