distilabel-internal-testing/fine-preferences-magpie-v6-tasky-6
收藏Hugging Face2024-07-17 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/distilabel-internal-testing/fine-preferences-magpie-v6-tasky-6
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过distilabel工具生成的,包含了一个`pipeline.yaml`文件,用于重现生成该数据集的流程。数据集的结构包括多个特征字段,如文本、ID、URL、文件路径、语言、语言评分、token计数、评分、整数评分、系统提示、对话内容、生成对话模型名称、生成内容、distilabel元数据等。数据集的分割为训练集,包含100个样本,总大小为2544228字节。数据集的标签包括synthetic、distilabel和rlaif。
This dataset contains multiple features such as text, ID, language, language score, and includes conversations and generated content. The dataset was created using the distilabel tool to simulate and analyze strategies and challenges in creating large-scale cavities in spiral galaxies using Gamma-Ray Bursts (GRBs). The structure of the dataset details examples for each configuration, including conversation content and roles, as well as metadata related to GRBs and generation model names.
提供机构:
distilabel-internal-testing
原始信息汇总
数据集概述
数据集结构
特征
- text: 文本数据,类型为字符串。
- id: 唯一标识符,类型为字符串。
- dump: 数据转储信息,类型为字符串。
- url: 数据来源URL,类型为字符串。
- file_path: 文件路径,类型为字符串。
- language: 语言标识,类型为字符串。
- language_score: 语言评分,类型为浮点数。
- token_count: 标记数量,类型为整数。
- score: 评分,类型为浮点数。
- int_score: 整数评分,类型为整数。
- system_prompt: 系统提示,类型为字符串。
- conversation: 对话列表,包含以下子特征:
- content: 对话内容,类型为字符串。
- role: 对话角色,类型为字符串。
- gen_conv_model_name: 生成对话的模型名称,类型为字符串。
- generations: 生成文本序列,类型为字符串。
- distilabel_metadata: 元数据结构,包含以下子特征:
- raw_output_chat_generation_2: 原始输出,类型为字符串。
- generations_model_names: 生成模型的名称序列,类型为字符串。
数据分割
- train: 训练集,包含100个样本,总大小为2544228字节。
数据集大小
- 下载大小: 1054764字节
- 数据集大小: 2544228字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:
标签
- synthetic: 合成数据
- distilabel: 使用Distilabel生成
- rlaif: 强化学习与人工智能



