Jayfeather1024/Reward-Embeddings

Name: Jayfeather1024/Reward-Embeddings
Creator: Jayfeather1024
Published: 2024-01-04 05:32:38
License: 暂无描述

Hugging Face2024-01-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Jayfeather1024/Reward-Embeddings

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是PKU-Alignment/PKU-SafeRLHF数据集的处理版本，包含RLHF奖励模型的嵌入特征和相应的原始文本。数据集以成对方式存储，每对数据包含更安全的示例文本、更不安全的示例文本以及它们的嵌入特征。嵌入特征的隐藏维度为4096，奖励模型使用线性层将嵌入特征转换为1维分数值。数据集非常大，因为原始训练数据集规模大且嵌入空间维度高。

提供机构：

Jayfeather1024

原始信息汇总

RLHF Reward Model Embedding Features for PKU-Alignment/PKU-SafeRLHF Dataset

数据集描述

文件存储：嵌入特征及其对应的原始文本存储在 embeddings_train.jsonl 和 embeddings_test.jsonl 中。
数据结构：数据集以成对方式存储，每个数据对包含以下内容：
1. safer_example：更安全的示例输入文本。
2. not_safer_example：更有害的示例输入文本。
3. safer_embedding：更安全的示例的嵌入特征。
4. not_safer_embedding：更有害的示例的嵌入特征。
嵌入维度：隐藏嵌入维度为 4096。奖励模型使用线性层将嵌入特征转换为 1 维的分数值。
数据集大小：由于原始训练数据集的规模较大和嵌入空间的高维度，数据集极其庞大。

原始数据集

详细信息：如需原始数据集的详细信息，请参考 train.jsonl.xz 和 test.jsonl.xz。生成嵌入时使用了 shuffle=False，因此数据集中的顺序得以保留。

备注

数据集来源：此数据集是 PKU-Alignment/PKU-SafeRLHF 的加工版本。

5,000+

优质数据集

54 个

任务类型

进入经典数据集