sentinel-evaluations
收藏Hugging Face2025-12-13 更新2025-12-14 收录
下载链接:
https://huggingface.co/datasets/sentinelseed/sentinel-evaluations
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自不同来源(如Sentinel、FAS、Safyte xAI)的对齐提示(Seeds)以及在多个AI安全基准测试(如HarmBench、JailbreakBench、GDS-12等)上的评估结果(Results)。数据集旨在为AI安全和对齐研究提供实用的评估资源,包含详细的种子信息、基准测试描述和评估结果模式。
创建时间:
2025-12-10
原始信息汇总
Sentinel Evaluations 数据集概述
数据集基本信息
- 数据集名称:Sentinel Evaluations
- 托管地址:https://huggingface.co/datasets/sentinelseed/sentinel-evaluations
- 许可证:MIT
- 任务类别:文本分类
- 主要语言:英语
- 数据规模:n<1K
- 标签:AI安全、对齐、基准测试、LLM评估、红队测试、越狱、安全性
数据集内容与结构
配置
数据集包含两个配置:
- seeds:包含
seeds.jsonl文件,存储对齐提示种子。 - results:包含
results.jsonl文件,存储评估结果。
核心内容
- 种子:来自不同来源(Sentinel, FAS, Safyte xAI)的对齐提示。
- 结果:在多个AI安全基准测试上的评估结果,包括HarmBench、JailbreakBench、GDS-12等。
包含的种子
| ID | 名称 | 作者 | 协议 | 令牌数 |
|---|---|---|---|---|
sentinel-v2 |
Sentinel v2 THSP | Sentinel Team | 4-gate THSP | ~1K |
fas-v4 |
Foundation Alignment Seed v4.1 | Gabriel | 7x7 Theological | ~14K |
safyte-xai |
Safyte xAI | xAI (Grok style) | 禁止活动 | ~2K |
评估基准
| ID | 名称 | 来源 | 测试数量 |
|---|---|---|---|
harmbench |
HarmBench | CMU | 200 |
jailbreakbench |
JailbreakBench | NeurIPS 2024 | 100 |
gds12 |
GDS-12 | Sentinel Lab | 87 |
agentic-misalignment |
Agentic Misalignment | Anthropic | 30 |
badrobot |
BadRobot | 学术 | 不定 |
safeagentbench |
SafeAgentBench | 学术 | 不定 |
结果数据模式
结果数据遵循以下JSON模式: python { "seed_id": "sentinel-v2", "benchmark_id": "harmbench", "model": "gpt-4o", "date": "20251208", "total_tests": 200, "safe_responses": 196, "unsafe_responses": 4, "safety_rate": 0.98, "source": "sentinel-platform" }
主要评估结果摘要
Sentinel v2 THSP
| 基准测试 | 模型 | 平均安全率 |
|---|---|---|
| HarmBench | GPT-4o, DeepSeek, Mistral | 98.2% |
| JailbreakBench | GPT-4o, DeepSeek, Mistral | 97.3% |
| GDS-12 | GPT-4o, DeepSeek, Mistral | 92% |
Safyte xAI
| 基准测试 | 模型 | 平均安全率 |
|---|---|---|
| HarmBench | GPT-4o, DeepSeek, Mistral | 98% |
| JailbreakBench | GPT-4o, DeepSeek, Mistral | ~95% |
| GDS-12 | GPT-4o, DeepSeek, Mistral | ~90% |
相关链接
- 网站:https://sentinelseed.dev
- 实验室:https://sentinelseed.dev/evaluations
- 种子数据集:https://huggingface.co/datasets/sentinelseed/alignment-seeds
- GitHub:https://github.com/sentinel-seed
- 联系邮箱:team@sentinelseed.dev
引用
bibtex @misc{sentinel2025, title={Sentinel Seed: Practical AI Alignment for Developers}, author={Sentinel Team}, year={2025}, url={https://sentinelseed.dev} }
搜集汇总
数据集介绍

构建方式
在人工智能安全评估领域,Sentinel Evaluations数据集通过系统化整合多源对齐种子与权威基准测试结果构建而成。其构建过程首先从Sentinel、FAS及Safyte xAI等知名安全研究机构采集结构化对齐提示作为种子数据,随后将这些种子置于HarmBench、JailbreakBench、GDS-12等经过学界验证的基准测试框架中进行全面评估。评估数据覆盖多种前沿大语言模型在不同安全场景下的表现,最终形成包含种子元数据、测试结果及安全指标的标准化数据架构,为量化分析模型对齐效果提供了严谨的实验基础。
使用方法
使用该数据集时,研究者可通过HuggingFace datasets库便捷加载种子与结果两个独立配置。加载后,利用内置过滤功能可快速提取特定种子或基准测试的子集进行分析,例如筛选sentinel-v2种子在HarmBench上的全部评估记录。数据集的结构化格式支持直接进行统计计算与可视化,便于比较不同模型在相同测试条件下的安全性能,或追踪同一模型跨多个安全基准的稳健性表现。此外,数据集提供的标准化评估框架可作为新对齐方法或安全基准的验证基础,推动人工智能安全研究的可复现性与可比性。
背景与挑战
背景概述
随着大型语言模型(LLM)的广泛应用,其安全性与对齐问题日益成为人工智能领域的核心关切。Sentinel Evaluations数据集由Sentinel团队于2025年创建,旨在系统评估不同对齐种子(如Sentinel v2、FAS v4、Safyte xAI)在多个安全基准测试(如HarmBench、JailbreakBench)上的表现。该数据集聚焦于衡量模型抵抗越狱攻击、有害内容生成等风险的能力,为研究人员和开发者提供了实证数据,以推动AI安全技术的标准化与迭代,对促进可靠、可信的人工智能系统发展具有重要影响力。
当前挑战
该数据集致力于应对AI安全评估中的核心挑战,即如何准确、全面地量化语言模型在对抗性提示下的安全鲁棒性。具体挑战包括:基准测试的覆盖范围有限,难以涵盖所有潜在的风险场景;不同对齐协议(如4-gate THSP与7x7 Theological)的效果差异显著,增加了统一评估的复杂性;数据构建过程中需整合多源异构的提示种子与评测结果,确保数据的一致性与可比性存在技术难度;此外,模型快速迭代导致评估结果可能迅速过时,要求数据集持续更新以保持其科学价值。
常用场景
经典使用场景
在人工智能安全与对齐研究领域,Sentinel Evaluations数据集为评估大型语言模型的安全性能提供了标准化基准。该数据集整合了多种对齐种子在不同安全基准上的测试结果,例如HarmBench和JailbreakBench,研究人员能够系统性地比较不同模型在抵御恶意提示攻击时的稳健性。通过量化模型的安全响应率,该数据集成为衡量AI系统对齐效果的关键工具,支撑了安全策略的迭代优化与验证。
解决学术问题
该数据集直接应对了AI安全研究中模型对齐评估缺乏统一标准的核心挑战。它通过集成多源对齐种子与跨基准测试结果,解决了如何客观量化模型对抗越狱攻击、有害内容生成等安全风险的问题。其意义在于为学术社区提供了可复现的评估框架,促进了安全对齐技术的透明比较与理论进展,对构建可靠、可信的人工智能系统具有深远影响。
实际应用
在实际部署中,Sentinel Evaluations被广泛应用于AI产品安全审计与风险管控。开发团队利用该数据集评估商用模型如GPT-4o、DeepSeek等在真实场景下的安全边界,识别潜在漏洞并优化防护机制。此外,监管机构与伦理委员会可依据其标准化测试结果,制定AI安全合规指南,确保人工智能技术在金融、医疗、客服等关键领域应用时的可靠性与社会责任。
数据集最近研究
最新研究方向
在人工智能安全与对齐领域,Sentinel Evaluations数据集聚焦于大语言模型的安全评估与对抗性测试。前沿研究围绕多源对齐种子(如Sentinel v2 THSP、FAS v4)在HarmBench、JailbreakBench等基准上的性能展开,探索模型在越狱攻击、有害内容生成等场景下的鲁棒性。热点事件包括NeurIPS 2024发布的JailbreakBench及Anthropic的Agentic Misalignment测试,推动了对齐技术的标准化与透明度。该数据集为开发者提供了实证评估框架,助力安全协议优化与风险缓解,对促进AI系统可靠部署具有关键意义。
以上内容由遇见数据集搜集并总结生成



