plaguss/prm_800k_trl
收藏Hugging Face2024-12-13 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/plaguss/prm_800k_trl
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是tasksource/PRM800K的一个版本,用于使用TRL微调PRM模型。数据集中每个prompt对应原始数据集中的一行,包含了多个completions和labels。completions是从步骤列表中提取的文本,labels表示每个completion的正确性。数据集未进行去重处理。
This dataset is a version of tasksource/PRM800K prepared to fine tune a PRM model using TRL. Each prompt corresponds to a row in the original dataset, containing multiple completions and labels. The completions are extracted from the list of steps, and the labels indicate the correctness of each completion. The dataset has not been deduplicated.
提供机构:
plaguss



