five

when2rl/SHP_reformatted

收藏
Hugging Face2024-05-27 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/when2rl/SHP_reformatted
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从`stanfordnlp/SHP`数据集重新格式化而来,目的是使其与其他偏好数据集保持一致。数据集中包含`prompt`、`prompt_id`、`chosen`、`rejected`、`messages`等字段,并对`chosen`和`rejected`的评分进行了重新映射。数据集的结构包括训练集、验证集和测试集,分别包含348718、18436和18409个样本。

该数据集是从`stanfordnlp/SHP`数据集重新格式化而来,目的是使其与其他偏好数据集保持一致。数据集中包含`prompt`、`prompt_id`、`chosen`、`rejected`、`messages`等字段,并对`chosen`和`rejected`的评分进行了重新映射。数据集的结构包括训练集、验证集和测试集,分别包含348718、18436和18409个样本。
提供机构:
when2rl
原始信息汇总

数据集概述

数据集特征

  • prompt: 字符串类型
  • prompt_id: 字符串类型
  • chosen: 列表类型,包含:
    • content: 字符串类型
    • role: 字符串类型
  • rejected: 列表类型,包含:
    • content: 字符串类型
    • role: 字符串类型
  • messages: 列表类型,包含:
    • content: 字符串类型
    • role: 字符串类型
  • score_chosen: 浮点数类型(float64)
  • score_rejected: 浮点数类型(float64)
  • other_info: 结构体类型,包含:
    • domain: 字符串类型
    • post_id: 字符串类型
    • raw_score_chosen: 整数类型(int64)
    • raw_score_ratio: 浮点数类型(float64)
    • raw_score_rejected: 整数类型(int64)
    • seconds_difference: 浮点数类型(float64)
    • source: 字符串类型
    • upvote_ratio: 浮点数类型(float64)

数据集划分

  • train: 348718个样本,大小为1815446429字节
  • validation: 18436个样本,大小为93098840字节
  • test: 18409个样本,大小为95879141字节

数据集大小

  • 下载大小: 262070837字节
  • 数据集大小: 2004424410字节

配置文件

  • config_name: default
  • data_files:
    • train: 路径为data/train-*
    • validation: 路径为data/validation-*
    • test: 路径为data/test-*

数据集转换

  • 将upvotes转换为[1, 10]范围内的分数。
  • 保留原始数据的其他信息,将更好的响应标记为chosen,其他为rejected
  • 通过计算将所有分数转换为[1, 10]的范围。

数据集结构

  • 数据集包含多个字段,每个字段具有特定的数据类型和含义。
  • 数据集根据不同的配置文件进行划分,每个划分具有特定的路径和大小。

数据集创建

  • 数据集是从stanfordnlp/SHP数据集重新格式化而来,以与其他偏好数据集保持一致。
  • 数据集的创建过程中,对原始数据进行了转换和格式化处理,以适应特定的分析需求。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作