RLHF-And-Friends/Human-vs-Shapa-4x
收藏Hugging Face2025-03-27 更新2025-04-26 收录
下载链接:
https://hf-mirror.com/datasets/RLHF-And-Friends/Human-vs-Shapa-4x
下载链接
链接失效反馈官方服务:
资源简介:
这个数据集包含了来自RLHF-And-Friends/tldr-sft测试分割的人类完成数据以及borisshapa/ppo-4x-mistral-7b-smallsft-tldr的完成数据。数据集包含一个名为prompt的列,该列包含同时提供给人类和模型的提示。使用的模型是ppo-4x-mistral-7b-smallsft-tldr,原始数据集来源于RLHF-And-Friends/tldr-sft。ppo-4x-mistral-7b-smallsft-tldr模型在基于gpt-4o-mini意见的比赛中,对人类的胜率为0.385。
This dataset contains human completions from RLHF-And-Friends/tldr-sft test split and borisshapa/ppo-4x-mistral-7b-smallsft-tldr completions. The column prompt contains prompts given both to humans and the models. The model used is ppo-4x-mistral-7b-smallsft-tldr. The original dataset with prompts and human completions comes from RLHF-And-Friends/tldr-sft. The winrate of ppo-4x-mistral-7b-smallsft-tldr over humans based on gpt-4o-mini opinion is 0.385.
提供机构:
RLHF-And-Friends



