HCY123902/llama-3-8b-inst-utf-self-judge-with-prompt
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/HCY123902/llama-3-8b-inst-utf-self-judge-with-prompt
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: prompt
dtype: string
- name: prompt_id
dtype: string
- name: chosen
list:
- name: content
dtype: string
- name: role
dtype: string
- name: rejected
list:
- name: content
dtype: string
- name: role
dtype: string
- name: chosen_tokens
sequence: int64
- name: chosen_prec_judge
dtype: float64
- name: chosen_rec_judge
dtype: float64
- name: chosen_response_judge
dtype: string
- name: chosen_weights_judge
sequence: float64
- name: chosen_mask_judge
sequence: int64
- name: rejected_tokens
sequence: int64
- name: rejected_prec_judge
dtype: float64
- name: rejected_rec_judge
dtype: float64
- name: rejected_response_judge
dtype: string
- name: rejected_weights_judge
sequence: float64
- name: rejected_mask_judge
sequence: int64
- name: cost
dtype: int64
splits:
- name: train
num_bytes: 229415270
num_examples: 10111
- name: test
num_bytes: 7588231
num_examples: 343
download_size: 60006010
dataset_size: 237003501
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
---
提供机构:
HCY123902
搜集汇总
数据集介绍

构建方式
该数据集基于Llama-3-8B-Instruct模型构建,采用自我评判(self-judge)范式生成偏好数据。其核心构建流程为:首先收集包含多样化指令的初始提示(prompt),随后利用模型为每个提示生成chosen与rejected两种回应,并通过融入特定评判提示(prompt)引导模型对自身输出进行多维度评估。数据集中每个样本均包含原始提示及对应提示ID,chosen与rejected两项下各自记录了完整的对话内容、角色标签、分词后令牌序列,以及词元级别的精确率、召回率、权重和掩码等细粒度评判指标。此外,还保存了模型输出的整体判断分数与计算开销,从而形成一套可用于偏好对齐训练的结构化标注数据。
特点
此数据集的核心特征在于其自我评判机制的精细度与全面性。对于每个提示下的chosen与rejected回应,不仅存储了整体判断得分(prec_judge与rec_judge),更以序列形式保存了词元级别的评判权重与掩码,使研究者能够定位到影响模型判决的具体语言单元。所有评判结果均来自模型本身,避免了人工标注的主观偏差,同时降低了数据构建成本。数据集包含约10,111条训练样本与343条测试样本,规模适中且标注维度丰富,尤其适合用于强化学习中的偏好学习、DPO(Direct Preference Optimization)训练或作为评价型奖励模型的基础数据。
使用方法
该数据集在Hugging Face平台上以默认配置组织,训练集与测试集分别存放于data/train-*与data/test-*路径下。使用者可通过datasets库直接加载:load_dataset('llama-3-8b-inst-utf-self-judge-with-prompt'),无需指定额外参数即可获得包含全部特征字段的Dataset对象。在应用层面,chosen与rejected字段可直接用于对比学习框架,而词元级别的评判指标(如chosen_weights_judge与chosen_mask_judge)适合对模型生成策略进行精调;prompt_id字段便于追踪原始输入,cost字段则可辅助计算资源监控。建议将chosen_token与rejected_token字段作为语言模型输入,同时利用judge相关分数设计损失函数,以实现基于自我评价的偏好优化。
背景与挑战
背景概述
随着大语言模型(LLM)在对话生成、文本理解等自然语言处理任务中的广泛应用,如何高效且低成本地对模型输出进行质量评估与偏好对齐成为关键挑战。基于此,llama-3-8b-inst-utf-self-judge-with-prompt数据集应运而生,由相关研究团队于2024年基于Meta的Llama-3-8B-Instruct模型构建,专注于利用模型自身进行自我评判(self-judge),以获取偏好数据。该数据集包含超过10,000条训练样本和343条测试样本,每条样本包含prompt、chosen与rejected响应及其对应的评判元数据(如精确率、召回率、权重矩阵等),旨在探索模型自监督偏好学习机制,为减少对昂贵人工标注的依赖提供新思路,对强化学习中的偏好对齐及模型自我改进研究具有重要推动作用。
当前挑战
该数据集所解决的核心领域问题在于:传统偏好标注依赖人工打分或外部评判模型,成本高昂且难以扩展,而该数据集尝试通过模型自身对chosen与rejected响应进行精确率、召回率等多维评估,实现低成本、大规模的偏好数据生成。然而,构建过程中面临多重挑战:首先,模型自评判的准确性难以保证,自我偏好评估可能存在系统性偏差,导致chosen与rejected响应的区分度不足;其次,评判元数据(如prec_judge、rec_judge、mask_judge)的获取需设计复杂的提示模板与后处理逻辑,如何确保评判结果的稳定性和可复现性是一大难题;此外,数据集仅包含单一模型(Llama-3-8B-Instruct)的自我评判结果,其泛化能力有待验证,且训练规模较小(10,111条),可能不足以支撑复杂偏好学习任务。
常用场景
经典使用场景
在大语言模型对齐领域,模型自我评判(Self-Judge)能力正成为无偏偏好数据生成的基石。llama-3-8b-inst-utf-self-judge-with-prompt 数据集聚焦于这一前沿范式,其经典场景在于利用 Llama 3 8B 指令微调模型对自身生成的候选响应进行精确评判,产出带有细粒度偏好标签的训练样本。每个样本均包含提示(prompt)、被选与拒绝的响应、以及模型自评的精确率、召回率和掩码权重,从而为强化学习从人类反馈(RLHF)或直接偏好优化(DPO)提供结构化偏好信号。该数据集特别适用于训练模型学会在无外部裁判模型介入时,自主鉴别高质量输出,推动对齐技术向更高效、更自洽的方向演进。
衍生相关工作
基于此数据集,学术界涌现出一系列自我对齐与自我改进的经典工作。例如,研究者利用其偏好标签训练出具备自我批评能力的对话模型,推进了 Constitutional AI 的实践;另一些工作则以此为基础,探索模型在迭代自评中性能增益的 Scaling Law,发现自评信号随模型规模呈现涌现式改善。此外,该数据集还被用于构建 Self-Rewarding 管线,使模型在训练循环中不断生成并评价新样本,突破偏好数据获取的瓶颈。这些衍生工作共同深化了我们对语言模型内部价值观形成机制的理解,也拓展了弱监督对齐的理论边界。
数据集最近研究
最新研究方向
该数据集聚焦于大语言模型自我评判与偏好对齐的前沿研究,基于Llama-3-8B-Instruct架构,通过引入精细化的评判权重与掩码机制,探索模型在生成响应时对自身输出进行质量评估与偏好排序的能力。这一方向与当前热点事件——如OpenAI的RLHF技术迭代及Anthropic的宪法AI理念——紧密相连,强调从静态数据对齐向动态自我监督的范式转型。数据集涵盖训练与测试分割,提供从原始提示到代币化评判的完整链路,为研究模型内在奖励信号、减少人工标注依赖提供了重要资源,对推动更自主、更可解释的智能体发展具有深远意义。
以上内容由遇见数据集搜集并总结生成



