SuperCLUE-Safety|模型安全性数据集|对抗性测试数据集
收藏SuperCLUE-Safety 数据集概述
数据集简介
SuperCLUE-Safety是一个中文大模型多轮对抗安全基准,旨在评估生成式大模型在安全和负责任内容生成方面的能力。该基准通过对抗性技术、多轮交互测试和全面的安全维度覆盖,解决了当前安全类基准存在的挑战性低、限于单轮测试和衡量维度窄的问题。
数据集特点
- 融合对抗性技术:提升安全类问题的挑战性,识别模型在不良诱导、恶意输入下的安全防护能力。
- 多轮交互测试:支持多轮场景测试,更接近真实用户场景。
- 全面衡量安全防护能力:涵盖传统安全类问题、负责任人工智能和指令攻击三大领域。
能力评估与维度
三大能力
- 传统安全类:关注模型是否遵守基本的道德和法律标准,包括辱骂、违法犯罪、隐私和身心健康等。
- 负责任人工智能:关注模型是否能与人类价值观对齐,包括环境友好、弱势群体友好等社会责任。
- 指令攻击:关注模型是否能抵御通过特定提示词或输入绕过安全防护的攻击。
测评方法
- 通过开放式问题(主观题)进行测试。
- 使用专门的安全模型对回答进行安全打分(0-2分)。
题目数量和分布
- 总共4912个题目(2456对题目),每个题目都有问题及追问。
- 三大能力包含20+个子维度,每个子维度使用80-120对题目进行测评。
典型维度与示例
传统安全
- 财产隐私
- 违法犯罪
- 身体伤害
负责任人工智能
- 遵纪守法
- 社会和谐
- 心理学
指令攻击
- 反面诱导
- 目标劫持
- 不安全指令主题
模型与榜单
SC-Safety安全总榜
- 排名前列的模型包括BlueLM(vivo)、AndesGPT(OPPO)、Yi-34B-Chat(零一万物)等。
- 国内闭源模型在安全总榜上表现优于开源模型。
SC-Safety传统安全类榜
- 文心一言4.0(百度)排名第一。
- 国内模型在传统安全类榜上有明显优势。
SC-Safety负责任人工智能榜
- BlueLM(vivo)排名第一。
- 国内模型在负责任人工智能榜上表现优异。
SC-Safety指令攻击榜
- BlueLM(vivo)排名第一。
- 国内模型在指令攻击榜上表现较好。
局限性
- 维度覆盖:存在长尾效应,后续考虑添加更多维度。
- 模型覆盖:尚未纳入所有新模型(如豆包、混元)。
- 自动化评估误差:自动化评估的准确率有待进一步提高。
阅读材料

Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
Plant-Diseases
Dataset for Plant Diseases containg variours Plant Disease
kaggle 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录