RLHF-And-Friends/Humans-vs-Llama-SmallSFT-PPO
收藏Hugging Face2025-04-14 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/RLHF-And-Friends/Humans-vs-Llama-SmallSFT-PPO
下载链接
链接失效反馈官方服务:
资源简介:
本数据集包含来自RLHF-And-Friends/tldr-sft测试分割和RLHF-And-Friends/TLDR-Llama-3.1-8B-SmallSFT-PPO模型的完成部分的人类完成数据。数据集中的prompt列包含了同时提供给人类和模型的提示。使用的模型是TLDR-Llama-3.1-8B-SmallSFT-PPO。原始数据集包含提示和人类的完成部分,来源于RLHF-And-Friends/tldr-sft。
This dataset contains human completions from the RLHF-And-Friends/tldr-sft test split and RLHF-And-Friends/TLDR-Llama-3.1-8B-SmallSFT-PPO model completions. The prompt column in the dataset includes the prompts given to both humans and models. The model used is TLDR-Llama-3.1-8B-SmallSFT-PPO. The original dataset with prompts and human completions is sourced from RLHF-And-Friends/tldr-sft.
提供机构:
RLHF-And-Friends



