RLAIF/optim_policy_pretrain-pythia-160m_lr0.0001_bs24_wp1_wd0.01_ep0_cp35k-merged

Name: RLAIF/optim_policy_pretrain-pythia-160m_lr0.0001_bs24_wp1_wd0.01_ep0_cp35k-merged
Creator: RLAIF
Published: 2025-01-17 04:00:16
License: 暂无描述

Hugging Face2025-01-17 更新2025-02-15 收录

下载链接：

https://hf-mirror.com/datasets/RLAIF/optim_policy_pretrain-pythia-160m_lr0.0001_bs24_wp1_wd0.01_ep0_cp35k-merged

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含多个字段的数据集，包括数字序列（nums）、目标值（target）、解决方案字符串（solution）、搜索路径（search_path）、评分（rating）、搜索类型（search_type）、最优路径（optimal_path）、启发式方法（heuristic）、提示（prompt）、输出（output）、分数（score）和有效性（is_valid）。数据集分为训练集，共有700000个示例。数据集的总大小为26090676216字节。

This dataset contains multiple fields including numeric sequences (nums), target values (target), solution strings (solution), search paths (search_path), ratings (rating), search types (search_type), optimal paths (optimal_path), heuristics (heuristic), prompts (prompt), outputs (output), scores (score), and validity (is_valid). The dataset is split into a training set with a total of 700,000 examples. The total size of the dataset is 26090676216 bytes.

提供机构：

RLAIF

5,000+

优质数据集

54 个

任务类型

进入经典数据集