five

alvarobartt/HelpSteer-AIF-raw

收藏
Hugging Face2024-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/alvarobartt/HelpSteer-AIF-raw
下载链接
链接失效反馈
官方服务:
资源简介:
HelpSteer是一个开源的有用性数据集(CC-BY-4.0),支持调整模型使其响应更加有用、事实正确且连贯,同时可调整响应的复杂性和冗长性。数据集包含37120个样本,但此子集仅包含前1000个样本,每个样本包含一个提示和一个响应。标注是通过使用GPT-4的AI反馈(AIF)生成的。

HelpSteer是一个开源的有用性数据集(CC-BY-4.0),支持调整模型使其响应更加有用、事实正确且连贯,同时可调整响应的复杂性和冗长性。数据集包含37120个样本,但此子集仅包含前1000个样本,每个样本包含一个提示和一个响应。标注是通过使用GPT-4的AI反馈(AIF)生成的。
提供机构:
alvarobartt
原始信息汇总

HelpSteer: Helpfulness SteerLM Dataset

数据集概述

  • 语言: 英语
  • 许可证: CC-BY-4.0
  • 大小类别: n<1K
  • 易读名称: HelpSteer with AIF

数据集信息

  • 特征:
    • prompt: 字符串
    • response: 字符串
    • labelling_model: 字符串
    • labelling_prompt: 列表
      • content: 字符串
      • role: 字符串
    • raw_labelling_response: 字符串
    • correctness: 整数 (int64)
    • coherence: 整数 (int64)
    • complexity: 整数 (int64)
    • verbosity: 整数 (int64)
    • helpfulness: 整数 (int64)
  • 分割:
    • train:
      • 字节数: 6324068
      • 样本数: 1000
  • 下载大小: 1484409
  • 数据集大小: 6324068

配置

  • 配置名称: default
    • 数据文件:
      • 分割: train
      • 路径: data/train-*

标签

  • synthetic
  • distilabel
  • helpsteer
  • ai-feedback
  • preference

数据集描述

  • 样本数: 37120 (完整数据集)
  • 子集样本数: 1000 (当前子集)
  • 内容: 每个样本包含一个提示和一个响应,同一个提示可能出现多次,每次对应不同的响应。

属性

  1. Helpfulness: 响应对提示的整体帮助性。
  2. Correctness: 包含所有相关事实且无错误。
  3. Coherence: 表达的一致性和清晰性。
  4. Complexity: 编写响应所需的智力深度。
  5. Verbosity: 响应中包含的细节量,相对于提示所要求的。

来源

  1. 提示: 基于模板生成和人工生成,涉及重写、总结、分类、提取、封闭式问答、开放式问答、生成和头脑风暴等任务。
  2. 响应: 由内部早期版本的LLM生成,每个提示最多生成4个响应。
  3. 标注: 使用OpenAI的GPT-4通过distilabel进行标注,采用Likert 5级量表(0-4)。

引用

bibtex @misc{wang2023helpsteer, title={HelpSteer: Multi-attribute Helpfulness Dataset for SteerLM}, author={Zhilin Wang and Yi Dong and Jiaqi Zeng and Virginia Adams and Makesh Narsimhan Sreedhar and Daniel Egert and Olivier Delalleau and Jane Polak Scowcroft and Neel Kant and Aidan Swope and Oleksii Kuchaiev}, year={2023}, eprint={2311.09528}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作