five

S-Eval|语言模型安全评估数据集|对抗性攻击测试数据集

收藏
arXiv2024-05-23 更新2024-06-17 收录
语言模型安全评估
对抗性攻击测试
下载链接:
https://huggingface.co/datasets/IS2Lab/S-Eval
下载链接
链接失效反馈
资源简介:
S-Eval是由浙江大学和阿里巴巴集团联合创建的大型语言模型安全评估数据集,包含220,000个评估提示,旨在系统地评估大型语言模型(LLMs)的安全性。数据集包括20,000个基础风险提示(10,000中文和10,000英文)和200,000个相应的攻击提示,这些攻击提示源自10种流行的对抗性指令攻击。S-Eval设计灵活,能够根据LLMs的快速演进和伴随的安全威胁,灵活配置和适应新的风险、攻击和模型,以持续更新基准。该数据集广泛应用于20个流行且具有代表性的LLMs评估中,结果证实S-Eval能更有效地反映和告知LLMs的安全风险,相比于现有基准。
提供机构:
浙江大学
创建时间:
2024-05-23
AI搜集汇总
数据集介绍
main_image_url
构建方式
S-Eval数据集通过一种创新的基于大语言模型(LLM)的自动测试提示生成和选择框架构建。该框架训练了一个专家测试LLM M𝐴?,用于支持多种测试提示生成任务,并结合一系列测试选择策略,自动构建高质量的测试套件。该套件包括220,000个评估提示,其中包括20,000个基础风险提示(10,000个中文和10,000个英文)和200,000个相应的攻击提示。此外,S-Eval还设计了一个四级风险分类体系,涵盖了多维度的安全风险,确保评估的全面性和系统性。
特点
S-Eval数据集的主要特点在于其自动化和适应性。通过LLM生成的测试提示,数据集能够快速适应大语言模型的快速演进和伴随的安全威胁。此外,S-Eval的测试提示涵盖了广泛的安全风险维度,包括伦理与道德、网络安全、犯罪与非法活动等,确保了对LLM安全性的多维度评估。数据集还具备开放性,能够灵活扩展以应对新的风险和攻击方式。
使用方法
S-Eval数据集可用于评估大语言模型在不同安全风险维度下的表现。用户可以通过提供的测试提示集,评估模型在基础风险提示和攻击提示下的响应,并使用内置的安全评估模型对模型的输出进行风险评分和标签化。数据集还支持对模型在不同参数规模、语言环境和解码参数下的安全性进行系统性评估,帮助研究者和开发者更好地理解和提升模型的安全性。
背景与挑战
背景概述
随着大型语言模型(LLMs)在多个领域的广泛应用,其安全性问题日益受到关注。LLMs在生成内容时可能包含有害信息,如非法建议、仇恨言论等,这使得对其进行全面的安全评估变得尤为重要。S-Eval数据集由浙江大学和阿里巴巴集团的研究人员于2024年提出,旨在解决现有安全评估基准的不足。该数据集通过自动生成和选择测试提示,构建了一个包含22万条评估提示的多维度、开放式安全评估基准,涵盖了20种流行的对抗性指令攻击。S-Eval的核心是一个基于LLM的自动测试提示生成和选择框架,能够灵活适应LLMs的快速演进和伴随的安全威胁。
当前挑战
S-Eval数据集面临的主要挑战包括:1)缺乏统一的风险分类体系,导致难以系统地分类和评估不同类型的风险;2)现有基准的风险性较弱,无法有效反映LLMs的安全性;3)测试提示的生成、选择和输出风险评估缺乏自动化,依赖大量人工劳动。此外,随着LLMs的快速迭代和安全威胁的不断演变,如何动态更新和扩展评估基准也是一个重要挑战。S-Eval通过设计统一的风险分类体系和自动化的测试生成框架,试图解决这些挑战,但其仍需应对LLMs在不同语言环境、参数规模和解码参数下的安全性评估问题。
常用场景
经典使用场景
S-Eval数据集的经典使用场景在于对大型语言模型(LLMs)的安全性进行全面评估。通过自动生成和选择测试提示,S-Eval能够构建一个高质量的测试套件,涵盖基础风险提示和对抗性攻击提示,从而系统性地评估LLMs在不同风险维度下的表现。
实际应用
S-Eval在实际应用中广泛用于评估和改进LLMs的安全性,尤其是在金融、医疗、教育等关键领域。通过提供多维度的安全评估,S-Eval帮助开发者和研究人员识别和修复模型中的潜在风险,确保LLMs在实际应用中的安全性和可靠性。
衍生相关工作
S-Eval的提出催生了一系列相关研究,特别是在自动化测试生成和多维度风险评估领域。例如,基于S-Eval的框架,研究人员开发了更高效的测试生成算法和更精细的风险分类体系,进一步推动了LLMs安全性评估的研究进展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国行政区划shp数据

   中国行政区划数据是重要的基础地理信息数据,目前不同来源的全国行政区划数据非常多,但能够开放获取的高质量行政区域数据少之又少。基于此,锐多宝的地理空间制作一套2013-2023年可开放获取的高质量行政区划数据。该套数据以2022年国家基础地理信息数据中的县区划数据作为矢量基础,辅以高德行政区划数据、天地图行政区划数据,参考历年来民政部公布的行政区划为属性基础,具有时间跨度长、属性丰富、国界准确、更新持续等特性。   中国行政区划数据统计截止时间是2023年2月12日,包含省、市、县、国界、九段线等矢量shp数据。该数据基于2020年行政区划底图,按时间顺序依次制作了2013-2023年初的行政区划数据。截止2023年1月1日,我国共有34个省级单位,分别是4个直辖市、23个省、5个自治区和2个特别行政区。截止2023年1月1日,我国共有333个地级单位,分别是293个地级市、7个地区、30个自治州和3个盟,其中38个矢量要素未纳入统计(比如直辖市北京等、特别行政区澳门等、省直辖县定安县等)。截止2023年1月1日,我国共有2843个县级单位,分别是1301个县、394个县级市、977个市辖区、117个自治县、49个旗、3个自治旗、1个特区和1个林区,其中9个矢量要素未纳入县级类别统计范畴(比如特别行政区香港、无县级单位的地级市中山市东莞市等)。

CnOpenData 收录

Pew Research Center Surveys

Pew Research Center Surveys 包含多个社会科学领域的调查数据,涵盖政治、社会、科技、宗教等多个主题。这些调查数据通常用于分析公众意见、态度和行为。

www.pewresearch.org 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

VEDAI

用于训练YOLO模型的VEDAI数据集,包含图像和标签,用于目标检测和跟踪。

github 收录

全国 1∶200 000 数字地质图(公开版)空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录