argilla/10k_prompts_ranked_sft_zephyr

Name: argilla/10k_prompts_ranked_sft_zephyr
Creator: argilla
Published: 2024-03-06 09:03:52
License: 暂无描述

Hugging Face2024-03-06 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/argilla/10k_prompts_ranked_sft_zephyr

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: input dtype: string - name: quality list: - name: status dtype: string - name: user_id dtype: string - name: value dtype: string - name: metadata dtype: string - name: avg_rating dtype: float64 - name: num_responses dtype: int64 - name: agreement_ratio dtype: float64 - name: raw_responses sequence: int64 - name: kind dtype: string - name: generation_model sequence: string - name: generation_prompt sequence: string - name: raw_generation_responses sequence: string - name: generations sequence: string splits: - name: train num_bytes: 44173269 num_examples: 10331 download_size: 20622194 dataset_size: 44173269 configs: - config_name: default data_files: - split: train path: data/train-* ---

数据集信息：特征列表： - 名称：输入（input），数据类型：字符串（string） - 名称：质量标注（quality），为列表结构，包含以下子字段： - 子字段：状态（status），数据类型：字符串 - 子字段：用户标识（user_id），数据类型：字符串 - 子字段：标注值（value），数据类型：字符串 - 名称：元数据（metadata），数据类型：字符串 - 名称：平均评分（avg_rating），数据类型：64位浮点型（float64） - 名称：响应数量（num_responses），数据类型：64位整型（int64） - 名称：标注一致性比例（agreement_ratio），数据类型：64位浮点型 - 名称：原始响应序列（raw_responses），数据类型：64位整型（int64）序列 - 名称：任务类型（kind），数据类型：字符串 - 名称：生成模型（generation_model），数据类型：字符串序列 - 名称：生成提示词（generation_prompt），数据类型：字符串序列 - 名称：原始生成响应（raw_generation_responses），数据类型：字符串序列 - 名称：生成结果（generations），数据类型：字符串序列数据划分： - 划分名称：训练集（train），占用字节数：44173269，样本量：10331 下载大小：20622194，数据集总大小：44173269 配置项： - 配置名称：默认配置（default），数据文件： - 划分：训练集（train），路径：data/train-*

提供机构：

argilla

原始信息汇总

数据集概述

数据特征

input: 数据类型为字符串。
quality: 包含以下子特征：
- status: 数据类型为字符串。
- user_id: 数据类型为字符串。
- value: 数据类型为字符串。
metadata: 数据类型为字符串。
avg_rating: 数据类型为浮点数（float64）。
num_responses: 数据类型为整数（int64）。
agreement_ratio: 数据类型为浮点数（float64）。
raw_responses: 数据类型为整数序列（sequence: int64）。
kind: 数据类型为字符串。
generation_model: 数据类型为字符串序列（sequence: string）。
generation_prompt: 数据类型为字符串序列（sequence: string）。
raw_generation_responses: 数据类型为字符串序列（sequence: string）。
generations: 数据类型为字符串序列（sequence: string）。

数据分割

train: 包含10331个样本，占用44173269字节。

数据集大小

下载大小: 20622194字节
数据集大小: 44173269字节

配置

default: 包含训练数据文件，路径为data/train-*。

5,000+

优质数据集

54 个

任务类型

进入经典数据集