five

dmayhem93/ChatCombined

收藏
Hugging Face2023-04-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dmayhem93/ChatCombined
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为ChatCombined,结合了5个AI对话数据集,并为每个对话添加了<|SYSTEM|>提示,同时使用<|USER|>和<|ASSISTANT|>标签分解对话。数据集的特征包括文本字段,数据类型为字符串。数据集包含一个训练集,大小为2530432677字节,包含1045936个示例。数据集的总下载大小为1272242079字节,总大小为2530432677字节。数据集的任务类别包括文本生成和对话,规模类别为1M<n<10M,许可证为cc-by-nc-4.0,语言为英语。

该数据集名为ChatCombined,结合了5个AI对话数据集,并为每个对话添加了<|SYSTEM|>提示,同时使用<|USER|>和<|ASSISTANT|>标签分解对话。数据集的特征包括文本字段,数据类型为字符串。数据集包含一个训练集,大小为2530432677字节,包含1045936个示例。数据集的总下载大小为1272242079字节,总大小为2530432677字节。数据集的任务类别包括文本生成和对话,规模类别为1M<n<10M,许可证为cc-by-nc-4.0,语言为英语。
提供机构:
dmayhem93
原始信息汇总

数据集概述

基本信息

  • 数据集名称: ChatCombined
  • 主要特征:
    • text: 数据类型为字符串
  • 数据划分:
    • train: 包含1045936个样本,总大小为2530432677字节
  • 下载大小: 1272242079字节
  • 数据集总大小: 2530432677字节

任务与规模

  • 任务类别:
    • 文本生成
    • 对话系统
  • 规模类别: 1M<n<10M

许可与语言

  • 许可: cc-by-nc-4.0
  • 语言: 英语

数据集构造

  • 结合了5个AI对话数据集,为每个数据集添加了<|SYSTEM|>提示,并使用<|USER|>和<|ASSISTANT|>标签分解对话。
  • 使用此数据集需添加以下令牌至分词器: <|SYSTEM|> <|USER|> <|ASSISTANT|>

数据集来源

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作