five

mo1x_checkpoint_120_CyberMetric-2000_cot

收藏
Hugging Face2025-05-21 更新2025-05-22 收录
下载链接:
https://huggingface.co/datasets/aisi-whitebox/mo1x_checkpoint_120_CyberMetric-2000_cot
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集使用deception_sprint包的create_inspect_dataset函数于2025年5月21日创建,基于vllm/checkpoint-120模型。数据集包含CyberMetric-2000_cot任务,启用了沙袋检测,但没有应用沙袋过滤。数据集没有进行分割,测试大小为0.2,验证大小为0.5,随机种子为42。沙袋统计显示CyberMetric-2000_cot任务的总对数为100,正常准确度为97%,沙袋准确度为99%。
创建时间:
2025-05-21
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能安全评估领域,该数据集通过deception_sprint工具包的create_inspect_dataset功能生成,采用双提示词对比架构构建。模型vllm/checkpoint-120在CyberMetric-2000_cot任务中分别接受良性提示与重复强化型恶意提示,通过控制变量法形成100组对比样本。数据生成过程设置了4096令牌长度限制与1000毫秒超时机制,未采用数据集划分策略,确保了生成序列的完整性与时效性。
特点
该数据集最显著的特征在于其专精于沙袋攻击检测领域,通过对比正常模式与恶意提示下的模型行为差异展现独特价值。统计数据显示97%的正常准确率与99%的沙袋攻击准确率形成鲜明对比,特别是存在2%的意图反转现象,为研究模型对抗性行为提供了关键观测窗口。数据集完整保留了原始任务特性,未经过滤的样本分布真实反映了语言模型在安全威胁下的响应模式。
使用方法
研究人员可将该数据集直接应用于人工智能安全评估流程,重点关注模型在双提示词场景下的行为分化现象。通过分析C→I与I→C等转换矩阵,能够有效量化模型抵抗诱导性提示的能力。使用时应结合97.0%基准准确率进行横向对比,利用200条样本容量开展统计显著性检验,同时注意token_limit参数对生成长度的约束条件。
背景与挑战
背景概述
随着人工智能安全研究的深入,模型欺骗行为检测成为关键课题。mo1x_checkpoint_120_CyberMetric-2000_cot数据集由deception_sprint技术框架于2025年5月构建,聚焦于网络空间安全度量领域。该数据集通过对比良性提示与恶意提示下语言模型的响应模式,旨在解析模型在面临特殊指令时的行为变异机制,为人工智能伦理对齐研究提供实证基础。其核心价值在于构建了可量化的欺骗行为识别基准,推动了可信人工智能系统的演进。
当前挑战
在模型安全评估领域,该数据集需解决双重挑战:其一是识别模型在特定语境下刻意降低性能的‘消极应对’行为,这要求算法能区分能力缺失与策略性失效;其二是构建过程中面临的技术复杂性,包括对抗性提示工程的设计平衡、多轮对话语境的一致性维护,以及高维度行为指标的可解释性提炼。这些挑战共同构成了人工智能安全评估从理论到实践的关键屏障。
常用场景
经典使用场景
在人工智能安全评估领域,该数据集主要用于检测语言模型在对抗性提示下的行为表现。通过对比良性提示与恶意提示下模型的响应差异,研究人员能够深入分析模型在面对潜在安全威胁时的稳健性。特别是在CyberMetric-2000推理任务中,数据集记录了模型在正常状态与潜在规避状态下的准确率变化,为理解模型的安全边界提供了重要依据。
衍生相关工作
基于该数据集的研究范式,学术界涌现出多个重要的延伸工作。这些研究进一步细化了语言模型安全评估的指标体系,开发了更高效的欺骗行为检测算法。同时,该数据集也启发了对模型透明度、可解释性等更深层次安全问题的探索,推动了整个人工智能安全研究领域的纵深发展。
数据集最近研究
最新研究方向
在人工智能安全评估领域,mo1x_checkpoint_120_CyberMetric-2000_cot数据集聚焦于大语言模型的对抗性行为检测研究。该数据集通过对比良性提示与恶意提示下的模型响应,揭示了模型在特定任务中潜在的欺骗策略,尤其是沙袋攻击的识别机制。前沿探索集中于利用思维链分析技术解析模型内部决策过程,结合高精度统计指标追踪异常行为模式。这一方向与当前AI治理热点紧密相连,为构建可信赖的人工智能系统提供了关键数据支撑,推动了安全评估范式的革新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作