five

euclaise/prm800k_preferences

收藏
Hugging Face2024-01-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/euclaise/prm800k_preferences
下载链接
链接失效反馈
资源简介:
PRM800K的第一阶段,专门用于偏好学习。该数据集包含了MATH测试集的数据,但使用了与典型MATH测试集不同的测试分割。

Phase 1 of PRM800K, processed for preference learning, includes four main features: question, history, chosen, and rejected. The dataset is split into a training set with 5728 examples, totaling 11928250 bytes. Note that PRM800K uses a different test split for MATH than typical, so this dataset includes data from the MATH test set.
提供机构:
euclaise
原始信息汇总

数据集概述

许可证

  • MIT许可证

数据集信息

  • 特征:

    • question: 类型为字符串
    • history: 序列类型为字符串
    • chosen: 类型为字符串
    • rejected: 序列类型为字符串
  • 分割:

    • train: 包含11928250字节,5728个样本
  • 大小:

    • 下载大小: 1827317字节
    • 数据集大小: 11928250字节

配置

  • 默认配置:
    • 数据文件:
      • train: 路径为data/train-*

备注

  • 该数据集是PRM800K的第一阶段,经过处理用于偏好学习。注意,PRM800K对MATH使用了不同的测试分割,因此该数据集包含来自MATH测试集的数据。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
The 'euclaise/prm800k_preferences' dataset is a text-based collection designed for preference learning, featuring 5,728 rows of data from the MATH test set. It is formatted in parquet, sized between 1K-10K, and licensed under MIT, supporting models such as 'euclaise/crow-1b-attempt1'.
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作