dmayhem93/ChatCombined
收藏Hugging Face2023-04-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dmayhem93/ChatCombined
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为ChatCombined,结合了5个AI对话数据集,并为每个对话添加了<|SYSTEM|>提示,同时使用<|USER|>和<|ASSISTANT|>标签分解对话。数据集的特征包括文本字段,数据类型为字符串。数据集包含一个训练集,大小为2530432677字节,包含1045936个示例。数据集的总下载大小为1272242079字节,总大小为2530432677字节。数据集的任务类别包括文本生成和对话,规模类别为1M<n<10M,许可证为cc-by-nc-4.0,语言为英语。
该数据集名为ChatCombined,结合了5个AI对话数据集,并为每个对话添加了<|SYSTEM|>提示,同时使用<|USER|>和<|ASSISTANT|>标签分解对话。数据集的特征包括文本字段,数据类型为字符串。数据集包含一个训练集,大小为2530432677字节,包含1045936个示例。数据集的总下载大小为1272242079字节,总大小为2530432677字节。数据集的任务类别包括文本生成和对话,规模类别为1M<n<10M,许可证为cc-by-nc-4.0,语言为英语。
提供机构:
dmayhem93
原始信息汇总
数据集概述
基本信息
- 数据集名称: ChatCombined
- 主要特征:
- text: 数据类型为字符串
- 数据划分:
- train: 包含1045936个样本,总大小为2530432677字节
- 下载大小: 1272242079字节
- 数据集总大小: 2530432677字节
任务与规模
- 任务类别:
- 文本生成
- 对话系统
- 规模类别: 1M<n<10M
许可与语言
- 许可: cc-by-nc-4.0
- 语言: 英语
数据集构造
- 结合了5个AI对话数据集,为每个数据集添加了<|SYSTEM|>提示,并使用<|USER|>和<|ASSISTANT|>标签分解对话。
- 使用此数据集需添加以下令牌至分词器: <|SYSTEM|> <|USER|> <|ASSISTANT|>



