erfanzar/UltraChat-Mixin
收藏Hugging Face2023-09-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/erfanzar/UltraChat-Mixin
下载链接
链接失效反馈官方服务:
资源简介:
UltraChat-Mixin数据集是由stingning/ultrachat、jondurbin/airoboros-2.1和erfanzar/GPT4-8K三个数据集混合而成,旨在训练对话AI模型。数据集包含对话、用户消息、助手响应、系统消息和唯一标识符等特征。数据集仅包含一个训练分割,包含1,478,011个示例,大小约为18,719,148,590字节。下载大小约为9,422,934,646字节。
提供机构:
erfanzar
原始信息汇总
UltraChat-Mixin 数据集概述
概述
UltraChat-Mixin 是一个由三个数据集混合而成的数据集,包括 stingning/ultrachat、jondurbin/airoboros-2.1 和 erfanzar/GPT4-8K。该数据集旨在用于训练对话式AI模型。
数据集配置
数据集配置如下:
yaml configs:
- config_name: default
data_files:
- split: train path: data/train-* dataset_info: features:
- name: dialog sequence: string
- name: user sequence: string
- name: assistant sequence: string
- name: system dtype: string
- name: id dtype: int64 splits:
- name: train num_bytes: 18719148590 num_examples: 1478011 download_size: 9422934646 dataset_size: 18719148590
特征
UltraChat-Mixin 数据集包含以下特征:
- dialog: 表示对话内容的字符串序列。
- user: 表示用户消息的字符串序列。
- assistant: 表示助手响应的字符串序列。
- system: 表示系统消息的字符串。
- id: 表示每个示例唯一标识的整数。
分割
数据集包含一个分割:
- train: 用于训练对话式AI模型,包含 1,478,011 个示例,大小约为 18,719,148,590 字节。
下载大小
UltraChat-Mixin 数据集的下载大小约为 9,422,934,646 字节。
数据集大小
UltraChat-Mixin 数据集的总大小约为 18,719,148,590 字节。



