five

Jayfeather1024/Reward-Embeddings

收藏
Hugging Face2024-01-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Jayfeather1024/Reward-Embeddings
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是PKU-Alignment/PKU-SafeRLHF数据集的处理版本,包含RLHF奖励模型的嵌入特征和相应的原始文本。数据集以成对方式存储,每对数据包含更安全的示例文本、更不安全的示例文本以及它们的嵌入特征。嵌入特征的隐藏维度为4096,奖励模型使用线性层将嵌入特征转换为1维分数值。数据集非常大,因为原始训练数据集规模大且嵌入空间维度高。
提供机构:
Jayfeather1024
原始信息汇总

RLHF Reward Model Embedding Features for PKU-Alignment/PKU-SafeRLHF Dataset

数据集描述

  • 文件存储:嵌入特征及其对应的原始文本存储在 embeddings_train.jsonlembeddings_test.jsonl 中。
  • 数据结构:数据集以成对方式存储,每个数据对包含以下内容:
    1. safer_example:更安全的示例输入文本。
    2. not_safer_example:更有害的示例输入文本。
    3. safer_embedding:更安全的示例的嵌入特征。
    4. not_safer_embedding:更有害的示例的嵌入特征。
  • 嵌入维度:隐藏嵌入维度为 4096。奖励模型使用线性层将嵌入特征转换为 1 维的分数值。
  • 数据集大小:由于原始训练数据集的规模较大和嵌入空间的高维度,数据集极其庞大。

原始数据集

  • 详细信息:如需原始数据集的详细信息,请参考 train.jsonl.xztest.jsonl.xz。生成嵌入时使用了 shuffle=False,因此数据集中的顺序得以保留。

备注

  • 数据集来源:此数据集是 PKU-Alignment/PKU-SafeRLHF 的加工版本。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作