when2rl/SHP_reformatted

Name: when2rl/SHP_reformatted
Creator: when2rl
Published: 2024-05-27 16:09:07
License: 暂无描述

Hugging Face2024-05-27 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/when2rl/SHP_reformatted

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从`stanfordnlp/SHP`数据集重新格式化而来，目的是使其与其他偏好数据集保持一致。数据集中包含`prompt`、`prompt_id`、`chosen`、`rejected`、`messages`等字段，并对`chosen`和`rejected`的评分进行了重新映射。数据集的结构包括训练集、验证集和测试集，分别包含348718、18436和18409个样本。

提供机构：

when2rl

原始信息汇总

数据集概述

数据集特征

prompt: 字符串类型
prompt_id: 字符串类型
chosen: 列表类型，包含：
- content: 字符串类型
- role: 字符串类型
rejected: 列表类型，包含：
- content: 字符串类型
- role: 字符串类型
messages: 列表类型，包含：
- content: 字符串类型
- role: 字符串类型
score_chosen: 浮点数类型（float64）
score_rejected: 浮点数类型（float64）
other_info: 结构体类型，包含：
- domain: 字符串类型
- post_id: 字符串类型
- raw_score_chosen: 整数类型（int64）
- raw_score_ratio: 浮点数类型（float64）
- raw_score_rejected: 整数类型（int64）
- seconds_difference: 浮点数类型（float64）
- source: 字符串类型
- upvote_ratio: 浮点数类型（float64）

数据集划分

train: 348718个样本，大小为1815446429字节
validation: 18436个样本，大小为93098840字节
test: 18409个样本，大小为95879141字节

数据集大小

下载大小: 262070837字节
数据集大小: 2004424410字节

配置文件

config_name: default
data_files:
- train: 路径为data/train-*
- validation: 路径为data/validation-*
- test: 路径为data/test-*

数据集转换

将upvotes转换为[1, 10]范围内的分数。
保留原始数据的其他信息，将更好的响应标记为chosen，其他为rejected。
通过计算将所有分数转换为[1, 10]的范围。

数据集结构

数据集包含多个字段，每个字段具有特定的数据类型和含义。
数据集根据不同的配置文件进行划分，每个划分具有特定的路径和大小。

数据集创建

数据集是从stanfordnlp/SHP数据集重新格式化而来，以与其他偏好数据集保持一致。
数据集的创建过程中，对原始数据进行了转换和格式化处理，以适应特定的分析需求。

5,000+

优质数据集

54 个

任务类型

进入经典数据集