CNSafe

Name: CNSafe
Creator: 北京航空航天大学 AI 安全实验室, 中国科学院大学, 南洋理工大学
Published: 2025-03-19 18:44:37
License: 暂无描述

arXiv2025-03-19 更新2025-03-21 收录

下载链接：

https://github.com/NY1024/DeepSeek-Safety-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

CNSafe是一个专门为评估DeepSeek模型安全性而开发的双语（中英文）安全评估数据集，包含5个主要类别和31个子类别，共有3100个测试案例。该数据集基于中国的国家安全要求构建，旨在全面评估中国开发的大型模型在生成内容方面的安全能力。

CNSafe is a bilingual (Chinese and English) safety evaluation dataset specifically developed for assessing the safety of DeepSeek models. It comprises 5 primary categories and 31 subcategories, with a total of 3100 test cases. Constructed in accordance with China's national security requirements, this dataset aims to comprehensively evaluate the content generation safety capabilities of large language models developed in China.

提供机构：

北京航空航天大学 AI 安全实验室, 中国科学院大学, 南洋理工大学

创建时间：

2025-03-19

搜集汇总

数据集介绍

构建方式

CNSafe数据集的构建基于《生成式人工智能服务基本安全要求》（TC260-003），涵盖了5个主要类别和31个子类别，共计3100个测试案例。该数据集特别设计了中英双语版本，旨在全面评估模型在不同语言环境下的安全性表现。此外，研究团队还通过整合典型的越狱攻击方法，构建了CNSafe_RT数据集，进一步从红队视角深入评估模型的安全性。CNSafe_RT的生成过程采用了半自动化方法，首先利用LLM（如GPT-4）对基础样本进行改写，生成对抗性变体，随后由安全专家审查并优化攻击策略，确保测试样本的有效性和针对性。

使用方法

CNSafe数据集的使用方法主要包括模型安全性的系统性评估和越狱攻击测试。研究团队采用了混合评估方法，结合了(M)LLM-as-Judge和人工评估，以确保评估结果的全面性和可靠性。具体而言，CNSafe用于评估模型在生成内容时的安全风险，而CNSafe_RT则用于评估模型在面对越狱攻击时的脆弱性。评估过程中，研究团队使用GPT-4和Qwen2.5-72B-Instruct等模型作为评判者，自动评估生成内容的有害性，同时辅以人工评估，确保在复杂场景下的评估准确性。这种混合评估策略不仅提高了评估的效率和可扩展性，还确保了评估结果的科学性和可信度。

背景与挑战

背景概述

CNSafe数据集由北京航空航天大学、360 AI安全实验室、中国科学院大学和南洋理工大学的联合研究团队于2025年创建，旨在系统评估DeepSeek系列模型在生成内容时的安全性风险。该数据集特别针对中国社会文化背景，设计了中英双语的安全评估框架，填补了现有评估标准在中国国情和文化背景下的空白。CNSafe的创建标志着对大型基础模型安全性的首次全面评估，涵盖了大语言模型、多模态大语言模型和文本到图像模型等多个领域。其研究成果为理解和改进大型模型的安全性提供了重要见解，推动了AI系统在生成内容时的安全性和责任性发展。

当前挑战

CNSafe数据集在构建和应用过程中面临多重挑战。首先，在领域问题方面，数据集旨在解决大型生成模型在生成内容时的安全性问题，特别是模型在生成有害内容（如算法歧视、色情内容等）时的脆弱性。然而，现有模型在中文和英文环境下的安全性表现存在显著差异，尤其是在面对越狱攻击时，模型的安全机制显得尤为脆弱。其次，在构建过程中，研究团队需克服文化差异带来的评估标准不一致问题，确保数据集能够全面反映中国社会文化背景下的安全风险。此外，数据集的设计还需兼顾多模态模型的复杂性，确保评估框架能够覆盖文本、图像等多种内容形式的安全性。这些挑战不仅要求数据集具备高度的多样性和复杂性，还需在评估方法上实现自动化与人工评估的有效结合。

常用场景

经典使用场景

CNSafe数据集主要用于评估大型生成模型（如DeepSeek系列）在生成内容时的安全性，特别是在中文社会文化背景下的表现。通过设计双语（中英）安全评估数据集，CNSafe能够系统性地检测模型在生成不安全内容时的表现，涵盖算法歧视、色情内容等多个风险维度。该数据集为研究人员提供了一个标准化的评估框架，帮助识别和改善模型的安全漏洞。

解决学术问题

CNSafe数据集解决了大型生成模型在安全性评估中的关键问题，尤其是在中文语境下的安全风险识别。通过系统性的评估，该数据集揭示了模型在生成内容时存在的显著安全漏洞，如算法歧视和色情内容生成等。这些发现为改进模型的安全机制提供了具体方向，推动了更安全、更负责任的人工智能系统的发展。

实际应用

CNSafe数据集在实际应用中具有广泛的价值，特别是在需要高安全标准的领域，如自动控制系统、医疗信息服务、心理咨询等。通过评估模型在这些场景下的表现，CNSafe帮助企业和研究机构识别潜在的安全风险，确保模型在实际部署中不会生成有害内容。此外，该数据集还可用于政策制定和监管，为政府提供科学依据，确保人工智能技术的安全应用。

数据集最近研究