distilabel-internal-testing/fine-preferences-magpie-generated-system-prompt-v1
收藏Hugging Face2024-07-18 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/distilabel-internal-testing/fine-preferences-magpie-generated-system-prompt-v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过distilabel工具生成的,包含一个pipeline.yaml文件,可以用于复现生成该数据集的流程。数据集的结构包括多个字段,如text、id、dump、url、file_path、language、language_score、token_count、score、int_score、generated_system_prompt、distilabel_metadata、gen_conv_model_name、system_prompt、conversation、generations和generations_model_names等。数据集主要用于生成多轮对话,特别是关于天体物理学中的伽马射线暴(GRB)对螺旋星系中星际介质(ISM)的影响的对话。
This dataset was created using the distilabel tool and includes a pipeline.yaml file that can be used to reproduce the pipeline that generated it. The dataset structure includes multiple fields such as text, id, dump, url, file_path, language, language_score, token_count, score, int_score, generated_system_prompt, distilabel_metadata, gen_conv_model_name, system_prompt, conversation, generations, and generations_model_names. The dataset is primarily used to generate multi-turn conversations, particularly about the effects of Gamma Ray Bursts (GRBs) on the interstellar medium (ISM) in spiral galaxies.
提供机构:
distilabel-internal-testing
原始信息汇总
数据集概述
数据集结构
特征
- text: 文本内容,类型为字符串。
- id: 唯一标识符,类型为字符串。
- dump: 数据转储信息,类型为字符串。
- url: 数据来源的URL,类型为字符串。
- file_path: 文件路径,类型为字符串。
- language: 语言标识,类型为字符串。
- language_score: 语言得分,类型为浮点数。
- token_count: 令牌计数,类型为整数。
- score: 得分,类型为浮点数。
- int_score: 整数得分,类型为整数。
- generated_system_prompt: 生成的系统提示,类型为字符串。
- distilabel_metadata: 元数据结构,包含以下字段:
- raw_output_chat_generation_2: 原始输出聊天生成内容,类型为字符串。
- gen_conv_model_name: 生成对话模型名称,类型为字符串。
- system_prompt: 系统提示,类型为字符串。
- conversation: 对话列表,包含以下字段:
- content: 对话内容,类型为字符串。
- role: 角色,类型为字符串。
- generations: 生成内容序列,类型为字符串序列。
- generations_model_names: 生成模型名称序列,类型为字符串序列。
数据分割
- train: 训练集,包含100个样本,总大小为1714804字节。
数据集大小
- 下载大小: 907734字节
- 数据集大小: 1714804字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:
标签
- synthetic: 合成数据
- distilabel: 数据集标签
- rlaif: 强化学习与人工智能



