HCY123902/mistral-7b-inst-utf-self-judge-with-prompt

Name: HCY123902/mistral-7b-inst-utf-self-judge-with-prompt
Creator: HCY123902
Published: 2026-05-01 06:00:36
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/HCY123902/mistral-7b-inst-utf-self-judge-with-prompt

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: prompt dtype: string - name: prompt_id dtype: string - name: chosen list: - name: content dtype: string - name: role dtype: string - name: rejected list: - name: content dtype: string - name: role dtype: string - name: chosen_tokens sequence: int64 - name: chosen_prec_judge dtype: float64 - name: chosen_rec_judge dtype: float64 - name: chosen_response_judge dtype: string - name: chosen_weights_judge sequence: float64 - name: chosen_mask_judge sequence: int64 - name: rejected_tokens sequence: int64 - name: rejected_prec_judge dtype: float64 - name: rejected_rec_judge dtype: float64 - name: rejected_response_judge dtype: string - name: rejected_weights_judge sequence: float64 - name: rejected_mask_judge sequence: int64 - name: cost dtype: int64 splits: - name: train num_bytes: 48126556 num_examples: 2485 - name: test num_bytes: 2616864 num_examples: 127 download_size: 12557995 dataset_size: 50743420 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* ---

提供机构：

HCY123902

搜集汇总

数据集介绍

构建方式

该数据集基于Mistral 7B Instruct模型构建，采用自我评判（Self-Judge）机制生成偏好数据。具体而言，针对每个提示（prompt），模型输出候选响应（chosen）与次优响应（rejected），并利用额外提示对两者进行自动评估。评估结果以精确率（prec_judge）、召回率（rec_judge）、权重向量（weights_judge）及掩码（mask_judge）等数值形式记录，同时保留原始评判文本（response_judge）。数据经过Token化处理，生成对应的Token序列（tokens），完整保留了模型决策的中间过程。最终形成包含2485个训练样本和127个测试样本的结构化数据集。

特点

数据集最显著的特点在于其自我评判机制与多维评估指标的共生设计。每个样本同时包含胜出与落选响应及其对应的五类评判数据，不仅记录最终偏好，更通过精确率、召回率等细粒度指标揭示模型评判的逻辑依据。权重向量与掩码的引入实现了对评判过程的可解释性追踪，使研究者能够深入分析模型在偏好选择中的关注焦点。此外，数据集保留了原始提示（prompt）与唯一标识符（prompt_id），便于跨实验的追溯与复用，构成了一个兼具深度与完整性的偏好学习研究资源。

使用方法

该数据集专为偏好对齐与强化学习研究设计，可直接用于DPO（Direct Preference Optimization）或PPO（Proximal Policy Optimization）等训练框架。使用时，用户可加载prompt、chosen与rejected字段构建偏好对；若需深入分析模型行为，可提取chosen_tokens与rejected_tokens观察Token级差异，或借助judge系列字段量化模型在偏好判断中的置信度与偏误。数据集已按8:2比例划分为训练集（2485条）与测试集（127条），支持开箱即用的标准化实验流程。加载路径为data/train-*与data/test-*，采用HuggingFace Datasets库即可便捷调用。

背景与挑战

背景概述

该数据集由Mistral AI团队于2024年创建，聚焦于大语言模型（LLM）的自我批评与偏好学习。核心研究问题在于如何让模型在没有人工标注的情况下，通过自我评判机制生成高质量的偏好数据，以支持基于人类反馈的强化学习（RLHF）。该数据集基于Mistral-7B-Instruct模型，利用预设提示引导模型对自身输出进行评价，并生成“chosen”与“rejected”两套答案及相应的评判指标（如精确率、召回率、权重等），从而构建用于偏好学习的训练对。这一工作为减少RLHF中昂贵的人工标注提供了新思路，对提升开源模型的对齐能力具有重要推动作用。

当前挑战

面临的领域挑战主要包括：大语言模型在缺乏真实人类反馈时的自我评判可能存在偏差，导致偏好数据质量不可控；模型自我生成的评判标准可能无法覆盖所有安全与有益性维度，存在对齐失效风险。构建过程中的挑战则体现在：需要设计有效的提示策略以激发模型自我批评能力；对模型输出进行多维度量化评估（如token级权重与掩码）的可靠性验证难度大；同时，数据规模有限（训练集仅2485条），可能不足以覆盖复杂场景下的偏好多样性，从而影响下游RLHF训练的效果与泛化性。

常用场景

经典使用场景

在大型语言模型的对齐优化研究中，mistral-7b-inst-utf-self-judge-with-prompt 数据集被广泛应用于基于人类偏好反馈的强化学习（RLHF）范式。该数据集通过让模型对自身生成的多个回复进行自评，构建了包含偏好标签、评分权重及掩码信息的结构化样本，尤其适用于训练奖励模型或直接偏好优化（DPO）任务。研究者常利用其细粒度的评估指标（如精确率、召回率）来提升模型对回答质量的判别能力，从而辅助调整生成策略。

解决学术问题

该数据集旨在解决大语言模型在自我评估与偏好对齐过程中面临的标注成本高昂与主观偏差问题。通过引入自评判机制，它有效缓解了依赖人工标注的局限性，为无需外部裁判模型的自主对齐研究提供了数据基础。其价值在于探索模型对自身输出进行量化评价的可行性，推动了从监督微调向更高效、可扩展的对齐方法演进，尤其在弱监督与自监督学习领域具有重要启示意义。

衍生相关工作

该数据集催生了若干前沿工作，包括对自评判偏差的修正方法研究，如通过对比学习缓解模型在自我评估时的过度自信问题。同时，基于其偏好权重结构，研究者开发了动态评分加权策略以改进对齐稳定性。此外，该数据集的掩码机制启发了针对部分观测反馈的强化学习算法，推动了离线偏好优化与跨模型泛化评估等方向的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集