five

RLHF-And-Friends/Human-vs-Shapa-2x

收藏
Hugging Face2025-03-27 更新2025-04-26 收录
下载链接:
https://hf-mirror.com/datasets/RLHF-And-Friends/Human-vs-Shapa-2x
下载链接
链接失效反馈
官方服务:
资源简介:
这个数据集包含了来自RLHF-And-Friends/tldr-sft测试分割的人类完成的补全,以及borisshapa/ppo-2x-mistral-7b-smallsft-tldr补全。数据集中的prompt列包含了同时给人类和模型的提示。使用的模型是ppo-2x-mistral-7b-smallsft-tldr。原始数据集,包括提示和人类补全,来源于RLHF-And-Friends/tldr-sft。ppo-2x-mistral-7b-smallsft-tldr模型在gpt-4o-mini意见基础上,相对于人类的胜率是55.4%。

This dataset contains human completions from the RLHF-And-Friends/tldr-sft test split and borisshapa/ppo-2x-mistral-7b-smallsft-tldr completions. The prompt column in the dataset includes prompts given to both humans and models. The model used is ppo-2x-mistral-7b-smallsft-tldr. The original dataset with prompts and human completions is from RLHF-And-Friends/tldr-sft. The winrate of the ppo-2x-mistral-7b-smallsft-tldr model over humans, based on gpt-4o-mini opinion, is 55.4%.
提供机构:
RLHF-And-Friends
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作