vwxyzjn/openhermes-dev__kaist-ai_prometheus-13b-v1.0__1707422187
收藏Hugging Face2024-02-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vwxyzjn/openhermes-dev__kaist-ai_prometheus-13b-v1.0__1707422187
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: system_prompt
dtype: string
- name: model
dtype: 'null'
- name: avatarUrl
dtype: 'null'
- name: conversations
list:
- name: from
dtype: string
- name: value
dtype: string
- name: weight
dtype: 'null'
- name: source
dtype: string
- name: title
dtype: string
- name: topic
dtype: string
- name: skip_prompt_formatting
dtype: bool
- name: idx
dtype: 'null'
- name: hash
dtype: 'null'
- name: views
dtype: 'null'
- name: custom_instruction
dtype: bool
- name: language
dtype: string
- name: category
dtype: string
- name: id
dtype: string
- name: model_name
dtype: string
- name: prompt
dtype: string
- name: token_length
dtype: int64
- name: candidate0
list:
- name: content
dtype: string
- name: role
dtype: string
- name: candidate1
list:
- name: content
dtype: string
- name: role
dtype: string
- name: candidate0_policy
dtype: string
- name: candidate1_policy
dtype: string
- name: llm_as_a_judge_prompt
dtype: string
- name: completion0
dtype: string
- name: candidate0_score
dtype: float64
- name: completion1
dtype: string
- name: candidate1_score
dtype: float64
- name: chosen
list:
- name: content
dtype: string
- name: role
dtype: string
- name: chosen_policy
dtype: string
- name: rejected
list:
- name: content
dtype: string
- name: role
dtype: string
- name: rejected_policy
dtype: string
splits:
- name: train_prefs
num_bytes: 649009687
num_examples: 48312
download_size: 296634497
dataset_size: 649009687
configs:
- config_name: default
data_files:
- split: train_prefs
path: data/train_prefs-*
---
This dataset is primarily used for dialogue systems, containing multiple fields such as system prompts, conversation content, sources, etc. Each field has a clear data type, such as string, boolean, integer, etc. The conversation content in the dataset details the initiator of the conversation and the specific content. Additionally, the dataset provides a training set (train_prefs), with its size and number of samples clearly stated.
提供机构:
vwxyzjn
原始信息汇总
数据集概述
数据集特征
- system_prompt: 类型为字符串。
- model: 类型为空。
- avatarUrl: 类型为空。
- conversations: 包含以下子特征:
- from: 类型为字符串。
- value: 类型为字符串。
- weight: 类型为空。
- source: 类型为字符串。
- title: 类型为字符串。
- topic: 类型为字符串。
- skip_prompt_formatting: 类型为布尔值。
- idx: 类型为空。
- hash: 类型为空。
- views: 类型为空。
- custom_instruction: 类型为布尔值。
- language: 类型为字符串。
- category: 类型为字符串。
- id: 类型为字符串。
- model_name: 类型为字符串。
- prompt: 类型为字符串。
- token_length: 类型为整数。
- candidate0: 包含以下子特征:
- content: 类型为字符串。
- role: 类型为字符串。
- candidate1: 包含以下子特征:
- content: 类型为字符串。
- role: 类型为字符串。
- candidate0_policy: 类型为字符串。
- candidate1_policy: 类型为字符串。
- llm_as_a_judge_prompt: 类型为字符串。
- completion0: 类型为字符串。
- candidate0_score: 类型为浮点数。
- completion1: 类型为字符串。
- candidate1_score: 类型为浮点数。
- chosen: 包含以下子特征:
- content: 类型为字符串。
- role: 类型为字符串。
- chosen_policy: 类型为字符串。
- rejected: 包含以下子特征:
- content: 类型为字符串。
- role: 类型为字符串。
- rejected_policy: 类型为字符串。
数据集分割
- train_prefs: 包含649,009,687字节和48,312个样本。
数据集大小
- 下载大小: 296,634,497字节。
- 数据集大小: 649,009,687字节。
配置
- config_name: default
- data_files:
- split: train_prefs
- path: data/train_prefs-*
- data_files:



