chadlzx/hhrlhf-relabel
收藏Hugging Face2024-03-22 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/chadlzx/hhrlhf-relabel
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是对22k随机采样的hhrlhf数据集(其中11k来自helpful-base,11k来自harmless-base)进行重新标注的版本。标注工作是基于llama-2-7b模型训练的奖励模型完成的。重新标注的Python脚本已提供,但警告用户在不完全理解数据集意义的情况下不要轻易使用。此外,数据集的重新标注完全依赖于llama-2-7b奖励模型,但该模型尚未上传。
该数据集是对22k随机采样的hhrlhf数据集(其中11k来自helpful-base,11k来自harmless-base)进行重新标注的版本。标注工作是基于llama-2-7b模型训练的奖励模型完成的。重新标注的Python脚本已提供,但警告用户在不完全理解数据集意义的情况下不要轻易使用。此外,数据集的重新标注完全依赖于llama-2-7b奖励模型,但该模型尚未上传。
提供机构:
chadlzx
原始信息汇总
数据集概述
数据集来源
- 该数据集是对hhrlhf数据集的重新标注版本,原始数据集随机抽样自helpful-base和harmless-base各11k样本,总计22k样本。
标注过程
- 标注工作由基于llama-2-7b训练的奖励模型完成。
- 标注脚本使用Python编写,涉及模型评估和概率采样。
数据集使用建议
- 作者不推荐轻率使用此数据集,强调理解数据集的重要性。
- 数据集的重新标注依赖于尚未上传的llama-2-7b奖励模型。
数据集结构
- 数据集包含对话上下文、选定回复和拒绝回复。
- 通过模型评估,为每个样本生成新的标签,并记录在JSON文件中。
数据集处理
- 使用transformers库中的AutoModelForSequenceClassification和AutoTokenizer进行模型加载和标记化。
- 数据集加载和处理脚本包括随机种子设置、数据集加载、模型评估和结果存储。
数据集输出
- 处理后的数据集以JSON格式存储,文件名为"hhrlhf_relabel_{split}_{data_dir}.json",其中{split}表示数据集分割(如训练或测试),{data_dir}表示数据集来源(helpful-base或harmless-base)。



