mijabench_closed_models_evaluated
收藏Hugging Face2026-04-09 更新2026-04-10 收录
下载链接:
https://huggingface.co/datasets/mijabench/mijabench_closed_models_evaluated
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含丰富的文本数据,适用于文本分析和潜在有害内容检测等任务。数据集包含多个字段,如原始索引(original_index)、文本内容(text)、组别(group)、语言(language)、数据来源(dataset_source)、是否有害(is_harmful)、场景类别(scenario_category)、场景(scenario)、jb策略(jb_strategy)、jb提示(jb_prompt)、序列ID(seq_id)以及多个模型生成的响应和分类结果(如jb_response_gemini_2.0_flash、jb_response_gpt_4o_mini_text等)。数据集规模较大,训练集包含43,961个样本,总大小为391,411,127字节。
创建时间:
2026-04-09
原始信息汇总
数据集概述
基本信息
- 数据集名称: mijabench_closed_models_evaluated
- 来源平台: Hugging Face
- 数据集地址: https://huggingface.co/datasets/mijabench/mijabench_closed_models_evaluated
数据规模
- 总数据量: 505,911,310 字节
- 下载大小: 239,483,919 字节
- 样本数量: 43,961 条
- 数据分割: 仅包含一个“train”分割
数据结构与特征
数据集包含以下字段:
original_index: 原始索引(int64)text: 文本内容(large_string)group: 分组信息(large_string)language: 语言(large_string)dataset_source: 数据来源(large_string)is_harmful: 是否有害标识(int64)scenario_category: 场景类别(large_string)scenario: 具体场景(large_string)jb_strategy: 对抗策略(large_string)jb_prompt: 对抗提示词(large_string)seq_id: 序列ID(int64)jb_response_gemini_2.0_flash: Gemini 2.0 Flash 模型的对抗响应(large_string)jb_response_gpt_4o_mini_text: GPT-4o Mini 文本模型的对抗响应(string)jb_cls_qwe235_gpt_4o_mini_text: 基于 GPT-4o Mini 文本模型的 QWE235 分类结果(string)jb_cls_qwe235_gemini_2.0_flash: 基于 Gemini 2.0 Flash 模型的 QWE235 分类结果(string)jb_cls_lla70_gpt_4o_mini_text: 基于 GPT-4o Mini 文本模型的 LLA70 分类结果(string)jb_cls_lla70_gemini_2.0_flash: 基于 Gemini 2.0 Flash 模型的 LLA70 分类结果(string)jb_cls_oss120_gpt_4o_mini_text: 基于 GPT-4o Mini 文本模型的 OSS120 分类结果(string)jb_cls_oss120_gemini_2.0_flash: 基于 Gemini 2.0 Flash 模型的 OSS120 分类结果(string)
数据内容与用途
- 该数据集主要用于评估闭源模型在对抗性提示下的响应与安全性。
- 包含多语言文本、有害性标注、多种对抗场景及策略。
- 记录了 Gemini 2.0 Flash 与 GPT-4o Mini 两种模型对相同对抗提示的响应文本。
- 提供了基于三种不同分类标准(QWE235、LLA70、OSS120)对模型响应进行的安全性分类结果。
搜集汇总
数据集介绍

构建方式
在人工智能安全评估领域,构建高质量的数据集对于衡量模型的风险抵御能力至关重要。Mijabench_closed_models_evaluated数据集的构建采用了系统化的方法,其核心是从多个来源收集原始文本数据,并为每条数据标注了丰富的元信息,包括所属组别、语言、数据源、是否具有危害性、场景类别与具体场景等。尤为关键的是,数据集针对每条文本设计了特定的越狱策略和提示词,并利用多个先进的闭源大语言模型(如GPT-4o mini和Gemini 2.0 Flash)生成对应的响应。最后,通过多套分类器对这些响应进行安全评估,从而形成了一个包含原始输入、模型输出及多维度评估结果的综合数据集。
特点
该数据集在人工智能安全基准测试领域展现出鲜明的特色。其最显著的特征在于专注于对闭源大语言模型的系统性越狱评估,提供了多种模型在对抗性提示下的真实响应记录。数据集结构设计精细,不仅包含原始的文本输入和详尽的元数据标签,还整合了不同模型生成的响应以及来自多个独立分类器的安全判断结果,实现了从攻击输入到模型输出再到第三方评估的完整数据链条。这种多层次、多角度的数据组织方式,为深入分析模型的脆弱性模式、比较不同模型的安全性能以及研究越狱策略的有效性提供了坚实的数据基础。
使用方法
研究人员和开发者可以借助该数据集开展多方面的安全研究。数据集可直接用于分析不同闭源模型在面对特定越狱策略和有害场景时的行为差异,通过对比‘jb_response_*’字段中的模型原始输出,可以定性评估模型的抵抗能力。同时,利用‘jb_cls_*’字段中不同分类器给出的安全判定结果,可以进行定量分析,例如计算不同模型的越狱成功率或评估分类器之间的一致性。此外,丰富的元数据字段(如scenario_category, language, group)支持对数据进行细粒度的切片分析,从而探究风险在不同维度上的分布规律,为构建更鲁棒的模型安全防线提供实证依据。
背景与挑战
背景概述
随着大型语言模型的广泛应用,其安全性与对齐性成为人工智能领域的关键议题。在此背景下,mijabench_closed_models_evaluated数据集应运而生,旨在系统评估闭源模型在对抗性提示下的鲁棒性。该数据集由专业研究团队构建,聚焦于检测模型在面对有害或越狱策略时的响应行为,核心研究问题在于量化模型的安全漏洞与防御能力。通过对多语言、多场景的对抗样本进行收集与标注,该数据集为模型安全评估提供了标准化基准,显著推动了可信任人工智能的发展。
当前挑战
该数据集致力于解决模型安全评估中的核心挑战,即如何准确、全面地衡量闭源语言模型在复杂对抗性攻击下的脆弱性。构建过程中的主要困难在于设计具有代表性和多样性的越狱策略与有害场景,确保覆盖不同文化背景与语言环境。同时,对模型响应的自动化分类与标注需要高精度,以避免主观偏差,并处理多模型输出对比所引入的评估复杂性。这些挑战要求数据集在规模、质量和评估维度上保持严谨平衡。
常用场景
经典使用场景
在人工智能安全评估领域,mijabench_closed_models_evaluated数据集为评估大型语言模型在对抗性提示下的鲁棒性提供了标准化的测试平台。该数据集通过精心设计的越狱策略和有害内容场景,系统性地收集了模型在多种语言和情境下的响应数据,使得研究人员能够量化模型的安全漏洞,并比较不同模型在抵御恶意诱导方面的性能差异。
实际应用
在实际应用中,该数据集被广泛用于大型科技公司的模型安全审计和产品部署前的风险评估。安全团队利用其构建的测试用例对商业模型进行压力测试,识别潜在的有害输出风险,并据此优化模型的安全护栏和内容过滤策略,确保生成式人工智能服务在开放环境中能够符合伦理规范与监管要求。
衍生相关工作
围绕该数据集,已衍生出一系列关于越狱攻击分类、多模型安全基准构建以及自动化安全评估工具的研究工作。例如,基于其数据格式和评估逻辑,研究者开发了更细粒度的越狱策略分析框架,并推动了如安全红队测试平台和动态对抗评估方法等经典工作的进展,持续丰富了人工智能安全领域的评估体系。
以上内容由遇见数据集搜集并总结生成



