chadlzx/hhrlhf-relabel

Name: chadlzx/hhrlhf-relabel
Creator: chadlzx
Published: 2024-03-22 04:20:45
License: 暂无描述

Hugging Face2024-03-22 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/chadlzx/hhrlhf-relabel

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是对22k随机采样的hhrlhf数据集（其中11k来自helpful-base，11k来自harmless-base）进行重新标注的版本。标注工作是基于llama-2-7b模型训练的奖励模型完成的。重新标注的Python脚本已提供，但警告用户在不完全理解数据集意义的情况下不要轻易使用。此外，数据集的重新标注完全依赖于llama-2-7b奖励模型，但该模型尚未上传。

提供机构：

chadlzx

原始信息汇总

数据集概述

数据集来源

该数据集是对hhrlhf数据集的重新标注版本，原始数据集随机抽样自helpful-base和harmless-base各11k样本，总计22k样本。

标注过程

标注工作由基于llama-2-7b训练的奖励模型完成。
标注脚本使用Python编写，涉及模型评估和概率采样。

数据集使用建议

作者不推荐轻率使用此数据集，强调理解数据集的重要性。
数据集的重新标注依赖于尚未上传的llama-2-7b奖励模型。

数据集结构

数据集包含对话上下文、选定回复和拒绝回复。
通过模型评估，为每个样本生成新的标签，并记录在JSON文件中。

数据集处理

使用transformers库中的AutoModelForSequenceClassification和AutoTokenizer进行模型加载和标记化。
数据集加载和处理脚本包括随机种子设置、数据集加载、模型评估和结果存储。

数据集输出

处理后的数据集以JSON格式存储，文件名为"hhrlhf_relabel_{split}_{data_dir}.json"，其中{split}表示数据集分割（如训练或测试），{data_dir}表示数据集来源（helpful-base或harmless-base）。

5,000+

优质数据集

54 个

任务类型

进入经典数据集