JailbreakV-28K/JailBreakV-28k|多模态语言模型数据集|安全评估数据集
收藏数据集概述
数据集名称
- JailBreakV_28K
许可
- MIT
任务类别
- 文本生成
- 问答
数据集大小
- 10K<n<100K
配置
- config_name: JailBreakV_28K
- split: mini_JailBreakV_28K
- path: JailBreakV_28K/mini_JailBreakV_28K.csv
- split: JailBreakV_28K
- path: JailBreakV_28K/JailBreakV_28K.csv
- split: mini_JailBreakV_28K
- config_name: RedTeam_2K
- split: RedTeam_2K
- path: JailBreakV_28K/RedTeam_2K.csv
- split: RedTeam_2K
数据集详情
JailBreakV_28K 和 mini_JailBreakV_28K 数据集列
- id: 唯一标识符
- jailbreak_query: 通过不同越狱攻击获得的越狱查询
- redteam_query: 来自 RedTeam_2K 的有害查询
- format: 越狱攻击方法,包括模板、说服、逻辑、figstep、查询相关
- policy: 红队查询违反的安全策略
- image_path: 图像文件路径
- from: 数据来源
- selected_mini: 如果数据在 mini_JailBreakV_28K 数据集中则为 "True",否则为 "False"
- transfer_from_llm: 如果越狱查询是从 LLM 越狱攻击转移过来的则为 "True",否则为 "False"
RedTeam_2K 数据集列
- id: 唯一标识符
- question: 有害查询
- policy: 红队查询违反的安全策略
- from: 数据来源
数据组成
RedTeam_2K
- 描述: 精心策划的包含 2,000 个有害查询的数据集,旨在识别 LLM 和 MLLM 中的对齐漏洞。该数据集涵盖 16 个安全策略,并包含来自 8 个不同来源的查询。
JailBreakV_28K
- 描述: 包含 28,000 个越狱文本-图像对的数据集,包括 20,000 个基于文本的 LLM 转移越狱攻击和 8,000 个基于图像的 MLLM 越狱攻击。该数据集涵盖 16 个安全策略和 5 种不同的越狱方法。
数据集概览
- RedTeam_2K: 包含 2,000 个有害查询,涵盖 16 个安全策略,来自 8 个不同来源。
- JailBreakV_28K: 包含 28,000 个越狱文本-图像对,涵盖 16 个安全策略和 5 种越狱方法。
数据集使用
python from datasets import load_dataset
mini_JailBreakV_28K = load_dataset("JailbreakV-28K/JailBreakV-28k", JailBreakV_28K)["mini_JailBreakV_28K"] JailBreakV_28K = load_dataset("JailbreakV-28K/JailBreakV-28k", JailBreakV_28K)["JailBreakV_28K"] RedTeam_2K = load_dataset("JailbreakV-28K/JailBreakV-28k", RedTeam_2K)["RedTeam_2K"]
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
VQA
我们提出了自由形式和开放式视觉问答 (VQA) 的任务。给定图像和关于图像的自然语言问题,任务是提供准确的自然语言答案。反映许多现实世界的场景,例如帮助视障人士,问题和答案都是开放式的。视觉问题有选择地针对图像的不同区域,包括背景细节和底层上下文。因此,与生成通用图像说明的系统相比,在 VQA 上取得成功的系统通常需要对图像和复杂推理有更详细的理解。此外,VQA 适合自动评估,因为许多开放式答案仅包含几个单词或一组封闭的答案,可以以多项选择的形式提供。我们提供了一个数据集包含 100,000 的图像和问题并讨论它提供的信息。提供了许多 VQA 基线,并与人类表现进行了比较。
OpenDataLab 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
中国行政区划shp数据
中国行政区划数据是重要的基础地理信息数据,目前不同来源的全国行政区划数据非常多,但能够开放获取的高质量行政区域数据少之又少。基于此,锐多宝的地理空间制作一套2013-2023年可开放获取的高质量行政区划数据。该套数据以2022年国家基础地理信息数据中的县区划数据作为矢量基础,辅以高德行政区划数据、天地图行政区划数据,参考历年来民政部公布的行政区划为属性基础,具有时间跨度长、属性丰富、国界准确、更新持续等特性。 中国行政区划数据统计截止时间是2023年2月12日,包含省、市、县、国界、九段线等矢量shp数据。该数据基于2020年行政区划底图,按时间顺序依次制作了2013-2023年初的行政区划数据。截止2023年1月1日,我国共有34个省级单位,分别是4个直辖市、23个省、5个自治区和2个特别行政区。截止2023年1月1日,我国共有333个地级单位,分别是293个地级市、7个地区、30个自治州和3个盟,其中38个矢量要素未纳入统计(比如直辖市北京等、特别行政区澳门等、省直辖县定安县等)。截止2023年1月1日,我国共有2843个县级单位,分别是1301个县、394个县级市、977个市辖区、117个自治县、49个旗、3个自治旗、1个特区和1个林区,其中9个矢量要素未纳入县级类别统计范畴(比如特别行政区香港、无县级单位的地级市中山市东莞市等)。
CnOpenData 收录
Arizona Cities by Population
A dataset listing Arizona cities by population for 2024.
www.arizona-demographics.com 收录