WiredBrain-RLHF
收藏WiredBrain-RLHF (Entity-Augmented & Quality Scored) 数据集概述
基本信息
- 许可证: MIT
- 任务类别: 强化学习、文本生成
- 语言: 英语
- 标签: rlhf, ner, dpo, ppo, jarvis, fine-tuning, alignment, llm-alignment, instruction-tuning, preference-tuning, synthetic-data, evaluation, spacy, gliner, anthropic-hh-rlhf, trl, transformers, agentic-ai, jsonl
- 数据规模: 100K < n < 1M
- 数据行数: 148K 行
- DOI: https://doi.org/10.57967/hf/7804
数据集概述
本数据集是原始 Anthropic HH-RLHF 数据集的增强版本,由 SHUBHAM DEV 构建。它在原始人类偏好对(Chosen vs. Rejected)的基础上,通过混合方法(SpaCy + GLiNER)添加了命名实体识别(NER),并引入了严格的质量和可读性指标。
核心增强特性
- 实体感知对齐:每个样本包含提取的实体(人物、硬件、概念、工具),支持实体保留损失函数,防止模型在对齐过程中产生事实幻觉。
- 即时过滤:预计算的
quality_score、readability_score(Flesch-Kincaid)和vocab_richness允许用户无需运行自有流水线即可过滤低质量交互。 - 受保护区域:明确标记文本中的“受保护区域”,支持惩罚事实性令牌偏离的微调策略。
性能验证
- 更快收敛:内部测试表明,使用本数据集微调的模型相比原始 HH-RLHF,在最初2个周期内训练损失显著下降。
- 指标稳定性:预计算的
readability和entity_preservation分数可防止在噪声或未整理数据上微调时常出现的“灾难性遗忘”。 - 目标效率:优化使损失值快速接近**~1.0-2.0**,显著节省计算时间并减少碳足迹。
- Jarvis级精度:专为需要高事实密度和多步推理可靠性的智能体而设计。
竞争优势对比
| 特性 | 原始 HH-RLHF | 典型 DPO 数据集 | WiredBrain-RLHF |
|---|---|---|---|
| 事实基础 | ❌ 无 | ❌ 罕见 | ✅ 实体增强 |
| 噪声水平 | 高 | 中等 | ✅ 已整理和评分 |
| 可读性指标 | ❌ 无 | ❌ 无 | ✅ 预计算 |
| 幻觉防护 | ❌ 无 | ❌ 无 | ✅ 受保护区域 |
| 收敛速度 | 标准 | 标准 | ✅ 2倍更快 |
数据集结构
每个条目是一个包含对话和丰富元数据的 JSON 对象。
示例结构: json { "source": "Anthropic/hh-rlhf", "content": "Human: ... Assistant: ...", "rejected_alternative": "...", "quality_score_final": 0.87, "readability_metrics": { "flesch": 82.6, "ari": 4.0 }, "entities_all": [ {"text": "3.5 inches", "type": "QUANTITY", "source": "spacy"}, {"text": "horseshoes", "type": "component", "source": "gliner"}, {"text": "Ford", "type": "model", "source": "gliner"} ], "protected_regions": 11 }
字段说明
| 字段 | 描述 |
|---|---|
content |
“Chosen”对话路径。 |
rejected_alternative |
“Rejected”响应(用于 DPO/PPO 训练)。 |
entities_all |
由 SpaCy(标准 NER)和 GLiNER(零样本 NER)检测到的实体列表。 |
quality_score_final |
基于文本连贯性和格式的聚合质量指标(0.0 - 1.0)。 |
readability_metrics |
Flesch-Kincaid 和 ARI 分数,用于衡量复杂度。 |
protected_regions |
在生成过程中理想情况下应保留的关键实体跨度数量。 |
使用案例
- 减少 DPO 中的幻觉:利用
entities_all字段修改 DPO 损失函数,如果模型对“Chosen”响应中的实体产生幻觉或破坏,则施加更高的惩罚。 - 领域特定过滤:例如,要微调医疗助手,可过滤数据集中
type为"disease"或"medication"的实体(通过 GLiNER 捕获)以创建目标子集。 - 数据课程学习:从“简单”数据(高可读性分数)开始训练,逐步过渡到复杂数据(低可读性分数),以提高稳定性。
快速开始
python from datasets import load_dataset
加载增强数据集
dataset = load_dataset("pheonix-delta/WiredBrain-RLHF")
访问实体增强样本
print(dataset[train][0][entities_all])
致谢与使用工具
- 原始数据: Anthropic
- NER 引擎 1: SpaCy (en_core_web_trf)
- NER 引擎 2: GLiNER (Generalist and Lightweight Named Entity Recognition)
- 处理: [The Sovereign Lab]




