argilla/10k_prompts_ranked_sft_zephyr
收藏Hugging Face2024-03-06 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/argilla/10k_prompts_ranked_sft_zephyr
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: input
dtype: string
- name: quality
list:
- name: status
dtype: string
- name: user_id
dtype: string
- name: value
dtype: string
- name: metadata
dtype: string
- name: avg_rating
dtype: float64
- name: num_responses
dtype: int64
- name: agreement_ratio
dtype: float64
- name: raw_responses
sequence: int64
- name: kind
dtype: string
- name: generation_model
sequence: string
- name: generation_prompt
sequence: string
- name: raw_generation_responses
sequence: string
- name: generations
sequence: string
splits:
- name: train
num_bytes: 44173269
num_examples: 10331
download_size: 20622194
dataset_size: 44173269
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息:
特征列表:
- 名称:输入(input),数据类型:字符串(string)
- 名称:质量标注(quality),为列表结构,包含以下子字段:
- 子字段:状态(status),数据类型:字符串
- 子字段:用户标识(user_id),数据类型:字符串
- 子字段:标注值(value),数据类型:字符串
- 名称:元数据(metadata),数据类型:字符串
- 名称:平均评分(avg_rating),数据类型:64位浮点型(float64)
- 名称:响应数量(num_responses),数据类型:64位整型(int64)
- 名称:标注一致性比例(agreement_ratio),数据类型:64位浮点型
- 名称:原始响应序列(raw_responses),数据类型:64位整型(int64)序列
- 名称:任务类型(kind),数据类型:字符串
- 名称:生成模型(generation_model),数据类型:字符串序列
- 名称:生成提示词(generation_prompt),数据类型:字符串序列
- 名称:原始生成响应(raw_generation_responses),数据类型:字符串序列
- 名称:生成结果(generations),数据类型:字符串序列
数据划分:
- 划分名称:训练集(train),占用字节数:44173269,样本量:10331
下载大小:20622194,数据集总大小:44173269
配置项:
- 配置名称:默认配置(default),数据文件:
- 划分:训练集(train),路径:data/train-*
提供机构:
argilla
原始信息汇总
数据集概述
数据特征
- input: 数据类型为字符串。
- quality: 包含以下子特征:
- status: 数据类型为字符串。
- user_id: 数据类型为字符串。
- value: 数据类型为字符串。
- metadata: 数据类型为字符串。
- avg_rating: 数据类型为浮点数(float64)。
- num_responses: 数据类型为整数(int64)。
- agreement_ratio: 数据类型为浮点数(float64)。
- raw_responses: 数据类型为整数序列(sequence: int64)。
- kind: 数据类型为字符串。
- generation_model: 数据类型为字符串序列(sequence: string)。
- generation_prompt: 数据类型为字符串序列(sequence: string)。
- raw_generation_responses: 数据类型为字符串序列(sequence: string)。
- generations: 数据类型为字符串序列(sequence: string)。
数据分割
- train: 包含10331个样本,占用44173269字节。
数据集大小
- 下载大小: 20622194字节
- 数据集大小: 44173269字节
配置
- default: 包含训练数据文件,路径为
data/train-*。



