five

hassaan-qaisar/ultrafeedback-instruction-dataset

收藏
Hugging Face2024-07-21 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/hassaan-qaisar/ultrafeedback-instruction-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为ultrafeedback-instruction-dataset,是由distilabel工具创建的。数据集包含一个`pipeline.yaml`文件,可用于通过distilabel CLI重现生成该数据集的管道。数据集的结构包括四个主要特征:instruction(指令)、system_prompt(系统提示)、generation(生成内容)和model_name(模型名称)。数据集只有一个配置default,并且可以通过Hugging Face的`load_dataset`函数加载。数据集的标签包括synthetic、distilabel和rlaif,表明数据集是合成的,使用了distilabel工具,并且可能与强化学习人工智能反馈(RLAIF)相关。

This dataset contains a `pipeline.yaml` which can be used to reproduce the pipeline that generated it in distilabel using the `distilabel` CLI. The dataset features include instruction, system_prompt, generation, and model_name. The dataset is split into a training set with 9 examples, totaling 18218 bytes. The dataset is generated using the distilabel tool for generating and exploring configuration files.
提供机构:
hassaan-qaisar
原始信息汇总

数据集卡片:ultrafeedback-instruction-dataset

数据集概述

该数据集包含一个pipeline.yaml文件,可用于在distilabel中重现生成该数据集的管道。

数据集结构

特征

  • instruction: 类型为字符串。
  • system_prompt: 类型为字符串。
  • generation: 类型为字符串。
  • model_name: 类型为字符串。

分割

  • train: 包含9个样本,大小为18218字节。

配置

  • default:
    • 数据文件路径: data/train-*

    • 加载方式: python from datasets import load_dataset

      ds = load_dataset("hassaan-qaisar/ultrafeedback-instruction-dataset", "default")

      或简化为: python from datasets import load_dataset

      ds = load_dataset("hassaan-qaisar/ultrafeedback-instruction-dataset")

标签

  • synthetic
  • distilabel
  • rlaif
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作