HuggingFaceTB/openhermes_filtered
收藏Hugging Face2024-02-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HuggingFaceTB/openhermes_filtered
下载链接
链接失效反馈官方服务:
资源简介:
这是一个OpenHermes 2.5数据集的过滤版本,移除了非英语指令和不适合生成故事的部分子集。数据集包含三个主要特征:类别、来源和提示。数据集被分为一个训练集,包含732,509个例子,总大小为1,026,332,050字节。下载大小为557,491,441字节。数据集的语言为英语,标签为合成。具体移除了来源为camelai和glaive-code-assist,以及类别为coding、wordgame、riddle、rp和gtkm的数据。
这是一个OpenHermes 2.5数据集的过滤版本,移除了非英语指令和不适合生成故事的部分子集。数据集包含三个主要特征:类别、来源和提示。数据集被分为一个训练集,包含732,509个例子,总大小为1,026,332,050字节。下载大小为557,491,441字节。数据集的语言为英语,标签为合成。具体移除了来源为camelai和glaive-code-assist,以及类别为coding、wordgame、riddle、rp和gtkm的数据。
提供机构:
HuggingFaceTB
原始信息汇总
数据集概述
数据集信息
- 特征:
category: 类型为字符串source: 类型为字符串prompt: 类型为字符串
- 分割:
train: 包含1026332050字节,732509个样本
- 下载大小: 557491441字节
- 数据集大小: 1026332050字节
配置
- 配置名称: default
- 数据文件:
train: 路径为data/train-*
- 数据文件:
语言
- 英语
标签
- 合成数据



