five

InsultedByMathematics/all-online_alpha_1e-4_beta_3e-3-base-as-reference

收藏
Hugging Face2025-02-04 更新2025-02-15 收录
下载链接:
https://hf-mirror.com/datasets/InsultedByMathematics/all-online_alpha_1e-4_beta_3e-3-base-as-reference
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个字段,包括提示ID、提示文本、多个响应文本、模型来源、各种奖励值、LLaMA提示标记数、选择的奖励、拒绝的奖励、中间奖励、LLaMA选择标记数、LLaMA拒绝标记数、LLaMA中间标记数以及三种对数概率。数据集划分为训练集,包含17864个示例。

The dataset includes multiple fields such as prompt ID, prompt text, multiple response texts, model source, various reward values, LLaMA prompt token counts, chosen reward, rejected reward, middle reward, LLaMA chosen token counts, LLaMA rejected token counts, LLaMA middle token counts, and three types of log probabilities. The dataset is split into a training set with 17,864 examples.
提供机构:
InsultedByMathematics
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作