five

stallone/HelpSteer

收藏
Hugging Face2024-07-01 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/stallone/HelpSteer
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是[nvidia/HelpSteer](https://huggingface.co/datasets/nvidia/HelpSteer)的重新格式化版本,包含三个配置:completion、conversation和source。每个配置都有不同的特征,如输入、输出、消息内容、角色等,并且每个配置都包含训练和验证分割。数据集中的每个文档在三个配置中共享一个v4 UUID `doc_id`。

A reformatted version of [nvidia/HelpSteer](https://huggingface.co/datasets/nvidia/HelpSteer) into both a multiturn config `conversation` and completion config `completion`. A v4 UUID `doc_id` is shared across the same document in each config.
提供机构:
stallone
原始信息汇总

数据集概述

数据集配置

配置名称:completion

  • 特征
    • input: 类型为 string
    • output: 类型为 string
    • doc_id: 类型为 string
  • 分割
    • train: 字节数为 107429111,样本数为 35331
    • validation: 字节数为 5564716,样本数为 1789
  • 下载大小: 27278339 字节
  • 数据集大小: 112993827 字节

配置名称:conversation

  • 特征
    • doc_id: 类型为 string
    • messages: 列表类型,包含以下字段
      • content: 类型为 string
      • role: 类型为 string
  • 分割
    • train: 字节数为 108312386,样本数为 35331
    • validation: 字节数为 5609441,样本数为 1789
  • 下载大小: 25226078 字节
  • 数据集大小: 113921827 字节

配置名称:source

  • 特征
    • prompt: 类型为 string
    • response: 类型为 string
    • helpfulness: 类型为 int32
    • correctness: 类型为 int32
    • coherence: 类型为 int32
    • complexity: 类型为 int32
    • verbosity: 类型为 int32
    • doc_id: 类型为 string
  • 分割
    • train: 字节数为 108135731,样本数为 35331
    • validation: 字节数为 5600496,样本数为 1789
  • 下载大小: 27403708 字节
  • 数据集大小: 113736227 字节

数据文件路径

配置名称:completion

  • train: completion/train-*
  • validation: completion/validation-*

配置名称:conversation

  • train: conversation/train-*
  • validation: conversation/validation-*

配置名称:source

  • train: source/train-*
  • validation: source/validation-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作