five

kreem22/kreemdata

收藏
Hugging Face2024-04-01 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/kreem22/kreemdata
下载链接
链接失效反馈
官方服务:
资源简介:
这是UltraChat数据集的一个经过严格过滤的版本,用于训练Zephyr-7B-β模型,这是一个先进的7B聊天模型。原始数据集包含140万条由ChatGPT生成的对话,涵盖了广泛的主题。为了创建UltraChat 200k,我们应用了以下逻辑:选择子集以加快监督微调速度,修正数据集中的语法错误,并删除助手回复中包含“我没有情感”或“我没有意见”等短语的对话,即使这些提示不涉及情感或意见。数据集分为四个部分,适用于监督微调和生成排名。

这是UltraChat数据集的一个经过严格过滤的版本,用于训练Zephyr-7B-β模型,这是一个先进的7B聊天模型。原始数据集包含140万条由ChatGPT生成的对话,涵盖了广泛的主题。为了创建UltraChat 200k,我们应用了以下逻辑:选择子集以加快监督微调速度,修正数据集中的语法错误,并删除助手回复中包含“我没有情感”或“我没有意见”等短语的对话,即使这些提示不涉及情感或意见。数据集分为四个部分,适用于监督微调和生成排名。
提供机构:
kreem22
原始信息汇总

数据集概述

数据集名称

  • UltraChat 200k

数据集描述

  • 来源:该数据集是UltraChat数据集的一个过滤版本,用于训练Zephyr-7B-β模型。
  • 原始数据:包含1.4M对话,由ChatGPT生成,覆盖广泛主题。
  • 处理逻辑
    • 选择数据子集以加速监督微调。
    • 对数据进行Truecasing处理,修正语法错误。
    • 移除助手回复中包含“我没有情感”或“我没有意见”的对话。

数据集结构

  • 分割:包含四个分割,适用于监督微调(sft)和生成排名(gen)。
  • 示例数量
    • train_sft: 207865
    • test_sft: 23110
    • train_gen: 256032
    • test_gen: 28304

数据集特征

  • 特征
    • prompt: 字符串
    • prompt_id: 字符串
    • messages: 列表
      • content: 字符串
      • role: 字符串

数据集大小

  • 下载大小:1624049723字节
  • 数据集大小:3047427114字节

许可证

  • MIT
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作