five

distilabel-internal-testing/fine-preferences-magpie-v2

收藏
Hugging Face2024-07-16 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/distilabel-internal-testing/fine-preferences-magpie-v2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含100个训练样本,每个样本包含多个特征,如文本、ID、URL、文件路径、语言、语言评分、标记计数、评分、整数评分、系统提示、对话和模型名称。对话部分是一个列表,包含内容和角色两个字段。数据集是通过distilabel工具生成的,主要用于自然语言处理任务。

This dataset contains 100 training examples, each with multiple features such as text, ID, URL, file path, language, language score, token count, score, integer score, system prompt, conversation, and model name. The conversation part is a list containing two fields: content and role. The dataset is generated using the distilabel tool and is primarily used for natural language processing tasks.
提供机构:
distilabel-internal-testing
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称: fine-preferences-magpie-v2
  • 数据集大小: 1429752 字节
  • 下载大小: 638888 字节
  • 样本数量: 100
  • 配置名称: default

数据集结构

  • 特征:
    • text: 文本内容,类型为 string
    • id: 唯一标识符,类型为 string
    • dump: 数据转储信息,类型为 string
    • url: 数据来源URL,类型为 string
    • file_path: 文件路径,类型为 string
    • language: 语言标识,类型为 string
    • language_score: 语言评分,类型为 float64
    • token_count: 标记数量,类型为 int64
    • score: 评分,类型为 float64
    • int_score: 整数评分,类型为 int64
    • system_prompt: 系统提示,类型为 string
    • conversation: 对话列表,包含以下子特征:
      • content: 对话内容,类型为 string
      • role: 对话角色,类型为 string
    • model_name: 模型名称,类型为 string

数据集分割

  • 训练集:
    • 样本数量: 100
    • 字节数: 1429752

数据集标签

  • synthetic
  • distilabel
  • rlaif
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作