davanstrien/gens
收藏Hugging Face2024-05-01 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/davanstrien/gens
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过distilabel工具生成的,包含一个pipeline.yaml文件,用于复现生成数据集的流程。数据集的特征包括instruction(指令)、generation(生成内容)、generation_model(生成模型)、score(评分)、reason(评分理由)和scoring_model(评分模型)。数据集的结构为JSON格式,包含一个默认配置,可以通过Hugging Face的datasets库加载。
该数据集是通过distilabel工具生成的,包含一个pipeline.yaml文件,用于复现生成数据集的流程。数据集的特征包括instruction(指令)、generation(生成内容)、generation_model(生成模型)、score(评分)、reason(评分理由)和scoring_model(评分模型)。数据集的结构为JSON格式,包含一个默认配置,可以通过Hugging Face的datasets库加载。
提供机构:
davanstrien
原始信息汇总
数据集概述
数据集信息
- 大小分类: 小于1K
- 特征:
- instruction: 字符串类型
- generation: 字符串类型
- generation_model: 字符串类型
- score: 整数类型(int64)
- reason: 字符串类型
- scoring_model: 字符串类型
数据集结构
- 分割:
- train:
- 字节数: 14129
- 示例数: 10
- train:
- 下载大小: 18674
- 数据集大小: 14129
配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
标签
- synthetic
- distilabel
- rlaif
示例结构(默认配置)
json { "generation": "...", "generation_model": "meta-llama/Meta-Llama-3-70B-Instruct", "instruction": "...", "reason": "...", "score": 5, "scoring_model": "meta-llama/Meta-Llama-3-70B-Instruct" }
加载数据集
python from datasets import load_dataset
ds = load_dataset("davanstrien/gens")



