five

RLHF-And-Friends/Humans-vs-Llama-Base-PPO

收藏
Hugging Face2025-04-08 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/RLHF-And-Friends/Humans-vs-Llama-Base-PPO
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了来自RLHF-And-Friends/tldr-sft测试分割的人类完成数据和RLHF-And-Friends/TLDR-Llama-3.1-8B-Base-PPO模型的完成数据。数据集中的(prompt)列包含了同时给人类和模型使用的提示。使用的是TLDR-Llama-3.1-8B-Base-PPO模型。原始数据集名为RLHF-And-Friends/tldr-sft。基于gpt-4o-mini的意见,TLDR-Llama-3.1-8B-Base-PPO模型相对于人类的胜率为0.88。

This dataset contains human completions from the RLHF-And-Friends/tldr-sft test split and completions from the RLHF-And-Friends/TLDR-Llama-3.1-8B-Base-PPO model. The column prompt includes the prompts given to both humans and the models. The model used is TLDR-Llama-3.1-8B-Base-PPO. The original dataset with prompts and human completions is named RLHF-And-Friends/tldr-sft. The winrate of TLDR-Llama-3.1-8B-Base-PPO over humans, based on the gpt-4o-mini opinion, is 0.88.
提供机构:
RLHF-And-Friends
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作