five

mytestdpo/llama3_orm_temp10

收藏
Hugging Face2025-01-05 更新2025-04-26 收录
下载链接:
https://hf-mirror.com/datasets/mytestdpo/llama3_orm_temp10
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了一个训练集,其中每个样本都包括一个索引、一个提示、一个答案序列、一个真实标签以及三种类型的奖励(普通奖励、代理奖励和次要奖励)。答案序列和奖励都是序列类型,可能表示与序列预测或生成任务相关。数据集总共包含2632个示例,文件大小为4401400字节。

The dataset consists of a training set where each sample includes an index, a prompt, an answer sequence, a ground truth label, and three types of rewards (regular rewards, proxy rewards, and secondary rewards). The answer sequence and rewards are of sequence type, which may indicate a relation to sequence prediction or generation tasks. The dataset contains a total of 2632 examples with a file size of 4401400 bytes.
提供机构:
mytestdpo
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作