thu-coai/SafetyBench|大型语言模型数据集|安全评估数据集
收藏数据集概述
数据集名称
SafetyBench
数据集描述
SafetyBench是一个综合基准,用于评估大型语言模型(LLMs)的安全性。该基准包含11,435个多样化的多选题,涵盖7个不同的安全类别。特别地,SafetyBench同时包含中文和英文数据,便于在两种语言中进行评估。
数据集配置
-
测试集配置 (
test
)- 中文测试集 (
test_zh.json
) - 英文测试集 (
test_en.json
) - 中文子集测试集 (
test_zh_subset.json
)
- 中文测试集 (
-
开发集配置 (
dev
)- 中文开发集 (
dev_zh.json
) - 英文开发集 (
dev_en.json
)
- 中文开发集 (
数据集使用
- 测试集的标签不公开,用户需提交结果以自动获取测试准确性。
- 提供了5个示例,每个安全类别各5个,分别在中文和英文开发集中,以支持少样本评估。
数据加载
python from datasets import load_dataset
test_dataset = load_dataset("thu-coai/SafetyBench", "test") dev_dataset = load_dataset("thu-coai/SafetyBench", "dev")
引用信息
@article{zhang2023safetybench, title={SafetyBench: Evaluating the Safety of Large Language Models with Multiple Choice Questions}, author={Zhexin Zhang and Leqi Lei and Lindong Wu and Rui Sun and Yongkang Huang and Chong Long and Xiao Liu and Xuanyu Lei and Jie Tang and Minlie Huang}, journal={arXiv preprint arXiv:2309.07045}, year={2023} }

猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录