stallone/HelpSteer
收藏Hugging Face2024-07-01 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/stallone/HelpSteer
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是[nvidia/HelpSteer](https://huggingface.co/datasets/nvidia/HelpSteer)的重新格式化版本,包含三个配置:completion、conversation和source。每个配置都有不同的特征,如输入、输出、消息内容、角色等,并且每个配置都包含训练和验证分割。数据集中的每个文档在三个配置中共享一个v4 UUID `doc_id`。
A reformatted version of [nvidia/HelpSteer](https://huggingface.co/datasets/nvidia/HelpSteer) into both a multiturn config `conversation` and completion config `completion`. A v4 UUID `doc_id` is shared across the same document in each config.
提供机构:
stallone
原始信息汇总
数据集概述
数据集配置
配置名称:completion
- 特征
input: 类型为stringoutput: 类型为stringdoc_id: 类型为string
- 分割
train: 字节数为 107429111,样本数为 35331validation: 字节数为 5564716,样本数为 1789
- 下载大小: 27278339 字节
- 数据集大小: 112993827 字节
配置名称:conversation
- 特征
doc_id: 类型为stringmessages: 列表类型,包含以下字段content: 类型为stringrole: 类型为string
- 分割
train: 字节数为 108312386,样本数为 35331validation: 字节数为 5609441,样本数为 1789
- 下载大小: 25226078 字节
- 数据集大小: 113921827 字节
配置名称:source
- 特征
prompt: 类型为stringresponse: 类型为stringhelpfulness: 类型为int32correctness: 类型为int32coherence: 类型为int32complexity: 类型为int32verbosity: 类型为int32doc_id: 类型为string
- 分割
train: 字节数为 108135731,样本数为 35331validation: 字节数为 5600496,样本数为 1789
- 下载大小: 27403708 字节
- 数据集大小: 113736227 字节
数据文件路径
配置名称:completion
train:completion/train-*validation:completion/validation-*
配置名称:conversation
train:conversation/train-*validation:conversation/validation-*
配置名称:source
train:source/train-*validation:source/validation-*



