distilabel-internal-testing/fine-preferences-magpie-generated-system-prompt-v0
收藏Hugging Face2024-07-18 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/distilabel-internal-testing/fine-preferences-magpie-generated-system-prompt-v0
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含一个 `pipeline.yaml` 文件,可以使用 `distilabel` CLI 重现生成该数据集的管道。数据集包含多种特征,如文本、ID、转储、URL、文件路径、语言、语言得分、标记计数、得分、整数得分、生成的系统提示、distilabel 元数据、生成对话模型名称、系统提示、对话、生成内容和生成模型名称。数据集分为包含100个示例的训练集。它被标记为合成、distilabel 和 rlaif。
This dataset contains a `pipeline.yaml` which can be used to reproduce the pipeline that generated it in distilabel using the `distilabel` CLI. The dataset includes various features such as text, id, dump, url, file_path, language, language_score, token_count, score, int_score, generated_system_prompt, distilabel_metadata, gen_conv_model_name, system_prompt, conversation, generations, and generations_model_names. The dataset is split into a training set with 100 examples. It is tagged as synthetic, distilabel, and rlaif.
提供机构:
distilabel-internal-testing
原始信息汇总
数据集概述
数据集结构
特征
- text: 类型为
string - id: 类型为
string - dump: 类型为
string - url: 类型为
string - file_path: 类型为
string - language: 类型为
string - language_score: 类型为
float64 - token_count: 类型为
int64 - score: 类型为
float64 - int_score: 类型为
int64 - generated_system_prompt: 类型为
string - distilabel_metadata: 结构类型,包含
raw_output_chat_generation_2,类型为string - gen_conv_model_name: 类型为
string - system_prompt: 类型为
string - conversation: 列表类型,包含
content和role,均为string类型 - generations: 序列类型,包含
string - generations_model_names: 序列类型,包含
string
分割
- train: 包含 100 个样本,占用 1568042 字节
配置
- default: 数据文件路径为
data/train-*
标签
- synthetic
- distilabel
- rlaif
数据集大小
- 下载大小: 839829 字节
- 数据集大小: 1568042 字节
数据集加载
python from datasets import load_dataset
ds = load_dataset("distilabel-internal-testing/fine-preferences-magpie-generated-system-prompt-v0")



