kreem22/kreemdata

Name: kreem22/kreemdata
Creator: kreem22
Published: 2024-04-01 18:39:10
License: 暂无描述

Hugging Face2024-04-01 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/kreem22/kreemdata

下载链接

链接失效反馈

官方服务：

资源简介：

这是UltraChat数据集的一个经过严格过滤的版本，用于训练Zephyr-7B-β模型，这是一个先进的7B聊天模型。原始数据集包含140万条由ChatGPT生成的对话，涵盖了广泛的主题。为了创建UltraChat 200k，我们应用了以下逻辑：选择子集以加快监督微调速度，修正数据集中的语法错误，并删除助手回复中包含“我没有情感”或“我没有意见”等短语的对话，即使这些提示不涉及情感或意见。数据集分为四个部分，适用于监督微调和生成排名。

提供机构：

kreem22

原始信息汇总

数据集概述

数据集名称

UltraChat 200k

数据集描述

来源：该数据集是UltraChat数据集的一个过滤版本，用于训练Zephyr-7B-β模型。
原始数据：包含1.4M对话，由ChatGPT生成，覆盖广泛主题。
处理逻辑：
- 选择数据子集以加速监督微调。
- 对数据进行Truecasing处理，修正语法错误。
- 移除助手回复中包含“我没有情感”或“我没有意见”的对话。

数据集结构

分割：包含四个分割，适用于监督微调(sft)和生成排名(gen)。
示例数量：
- train_sft: 207865
- test_sft: 23110
- train_gen: 256032
- test_gen: 28304

数据集特征

特征：
- prompt: 字符串
- prompt_id: 字符串
- messages: 列表
  - content: 字符串
  - role: 字符串

数据集大小

下载大小：1624049723字节
数据集大小：3047427114字节

许可证

MIT

5,000+

优质数据集

54 个

任务类型

进入经典数据集