thu-coai/SafetyBench|大型语言模型数据集|安全评估数据集

hugging_face2023-09-14 更新2024-03-04 收录

大型语言模型

安全评估

下载链接：

https://hf-mirror.com/datasets/thu-coai/SafetyBench

下载链接

链接失效反馈

资源简介：

SafetyBench是一个用于评估大型语言模型（LLMs）安全性的综合基准，包含11,435个多样化的选择题，涵盖了7个不同的安全类别。该数据集特别包含了中文和英文数据，支持双语评估。发布的内容包括中文测试集（`test_zh.json`）、英文测试集（`test_en.json`）和中文子集测试集（`test_zh_subset.json`），其中中文子集测试集移除了包含高度敏感关键词的样本，以测试具有严格过滤机制的API中文LLMs。此外，还发布了每个安全类别的5个示例，分别以中文（`dev_zh.json`）和英文（`dev_en.json`）提供，以支持少样本评估。测试集的标签未发布，用户需提交结果以自动获取测试准确率。

提供机构：

thu-coai

原始信息汇总

数据集概述

数据集名称

SafetyBench

数据集描述

SafetyBench是一个综合基准，用于评估大型语言模型（LLMs）的安全性。该基准包含11,435个多样化的多选题，涵盖7个不同的安全类别。特别地，SafetyBench同时包含中文和英文数据，便于在两种语言中进行评估。

数据集配置

测试集配置 (test)
- 中文测试集 (test_zh.json)
- 英文测试集 (test_en.json)
- 中文子集测试集 (test_zh_subset.json)
开发集配置 (dev)
- 中文开发集 (dev_zh.json)
- 英文开发集 (dev_en.json)

数据集使用

测试集的标签不公开，用户需提交结果以自动获取测试准确性。
提供了5个示例，每个安全类别各5个，分别在中文和英文开发集中，以支持少样本评估。

数据加载

python from datasets import load_dataset

test_dataset = load_dataset("thu-coai/SafetyBench", "test") dev_dataset = load_dataset("thu-coai/SafetyBench", "dev")

引用信息

@article{zhang2023safetybench, title={SafetyBench: Evaluating the Safety of Large Language Models with Multiple Choice Questions}, author={Zhexin Zhang and Leqi Lei and Lindong Wu and Rui Sun and Yongkang Huang and Chong Long and Xiao Liu and Xuanyu Lei and Jie Tang and Minlie Huang}, journal={arXiv preprint arXiv:2309.07045}, year={2023} }

AI搜集汇总

数据集介绍

构建方式

SafetyBench数据集的构建基于对大型语言模型（LLMs）安全性的全面评估需求，涵盖了11,435个多样化的多选题，这些问题跨越了7个不同的安全类别。数据集的构建过程中，特别考虑了中英文双语环境，分别生成了中文和英文的测试集，并针对中文API模型严格过滤机制，特别设计了中文子集测试集。此外，还为每个安全类别提供了5个示例，支持少样本评估。

特点

SafetyBench数据集的特点在于其广泛的安全类别覆盖和多语言支持。它不仅包含了7个不同的安全类别，还提供了中英文双语数据，使得模型可以在不同语言环境下进行安全性评估。特别地，中文子集测试集通过移除高度敏感关键词，专门用于测试具有严格过滤机制的中文API模型。这种设计使得数据集在评估模型安全性时更具针对性和实用性。

使用方法

使用SafetyBench数据集时，用户可以通过`datasets`库加载测试集和开发集。测试集的标签未公开，用户需提交模型预测结果以自动获取测试准确率。开发集则提供了每个安全类别的5个示例，支持少样本评估。具体使用方法包括加载数据集、提交预测结果以及参考GitHub仓库中的详细指南进行模型评估。

背景与挑战

背景概述

SafetyBench是由清华大学COAI实验室于2023年发布的一个综合性基准测试数据集，旨在评估大型语言模型（LLMs）的安全性。该数据集由11,435道多样化的多选题组成，涵盖了7个不同的安全类别，并同时包含中文和英文数据，支持双语评估。该数据集的创建标志着在LLMs安全性评估领域的重要进展，为研究人员提供了一个标准化的工具，以系统性地测试和比较不同模型在应对潜在安全风险时的表现。其发布不仅推动了LLMs安全性的研究，还为跨语言模型的安全性评估提供了新的视角。

当前挑战

SafetyBench面临的挑战主要体现在两个方面。首先，在领域问题层面，LLMs的安全性评估涉及复杂的伦理和社会问题，如何设计能够全面覆盖各类安全风险的测试题目，同时避免偏见和误导性内容，是一个极具挑战性的任务。其次，在数据集构建过程中，研究人员需要处理多语言数据的对齐问题，确保中文和英文题目在语义和难度上的一致性。此外，针对中文API模型的严格过滤机制，如何在不影响数据多样性的前提下移除高度敏感的关键词，也是一个技术难点。这些挑战共同构成了SafetyBench在推动LLMs安全性研究中的核心问题。

常用场景

经典使用场景

在人工智能领域，尤其是大型语言模型（LLMs）的安全评估中，SafetyBench数据集提供了一个全面的基准测试平台。该数据集通过包含11,435个多样化的多选题，覆盖了7个不同的安全类别，使得研究人员能够系统地评估模型在各种安全场景下的表现。特别是在中英文双语环境下，SafetyBench为跨语言模型的安全评估提供了重要支持。

解决学术问题

SafetyBench数据集解决了大型语言模型在安全评估中的标准化问题。通过提供涵盖多个安全类别的多样化问题，该数据集帮助研究人员识别和量化模型在应对潜在安全风险时的表现。这不仅为学术界提供了一个统一的评估框架，还促进了模型安全性的透明度和可解释性研究。

衍生相关工作

自SafetyBench发布以来，该数据集已衍生出多项相关研究，特别是在模型安全性和多语言评估领域。例如，一些研究利用该数据集进一步细化了模型在不同安全类别中的表现，提出了新的评估指标和方法。此外，SafetyBench还激发了更多关于模型安全性和伦理问题的讨论，推动了该领域的持续发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

猫狗图像数据集

该数据集包含猫和狗的图像，每类各12500张。训练集和测试集分别包含10000张和2500张图像，用于模型的训练和评估。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL，主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

PDT Dataset

PDT数据集是由山东计算机科学中心（国家超级计算济南中心）和齐鲁工业大学（山东省科学院）联合开发的无人机目标检测数据集，专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本，共计5775张图像，涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注，旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术，旨在提高无人机在植物保护中的目标识别精度，解决传统检测模型在实际应用中的不足。

arXiv 收录