kreem22/kreemdata
收藏Hugging Face2024-04-01 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/kreem22/kreemdata
下载链接
链接失效反馈官方服务:
资源简介:
这是UltraChat数据集的一个经过严格过滤的版本,用于训练Zephyr-7B-β模型,这是一个先进的7B聊天模型。原始数据集包含140万条由ChatGPT生成的对话,涵盖了广泛的主题。为了创建UltraChat 200k,我们应用了以下逻辑:选择子集以加快监督微调速度,修正数据集中的语法错误,并删除助手回复中包含“我没有情感”或“我没有意见”等短语的对话,即使这些提示不涉及情感或意见。数据集分为四个部分,适用于监督微调和生成排名。
这是UltraChat数据集的一个经过严格过滤的版本,用于训练Zephyr-7B-β模型,这是一个先进的7B聊天模型。原始数据集包含140万条由ChatGPT生成的对话,涵盖了广泛的主题。为了创建UltraChat 200k,我们应用了以下逻辑:选择子集以加快监督微调速度,修正数据集中的语法错误,并删除助手回复中包含“我没有情感”或“我没有意见”等短语的对话,即使这些提示不涉及情感或意见。数据集分为四个部分,适用于监督微调和生成排名。
提供机构:
kreem22
原始信息汇总
数据集概述
数据集名称
- UltraChat 200k
数据集描述
- 来源:该数据集是UltraChat数据集的一个过滤版本,用于训练Zephyr-7B-β模型。
- 原始数据:包含1.4M对话,由ChatGPT生成,覆盖广泛主题。
- 处理逻辑:
- 选择数据子集以加速监督微调。
- 对数据进行Truecasing处理,修正语法错误。
- 移除助手回复中包含“我没有情感”或“我没有意见”的对话。
数据集结构
- 分割:包含四个分割,适用于监督微调(
sft)和生成排名(gen)。 - 示例数量:
- train_sft: 207865
- test_sft: 23110
- train_gen: 256032
- test_gen: 28304
数据集特征
- 特征:
- prompt: 字符串
- prompt_id: 字符串
- messages: 列表
- content: 字符串
- role: 字符串
数据集大小
- 下载大小:1624049723字节
- 数据集大小:3047427114字节
许可证
- MIT



