Multilingual Multimodal OR Dataset
收藏github2025-11-21 更新2025-11-22 收录
下载链接:
https://github.com/Buerduo777/Multilingual_Multimodal_OR_Dataset_and_Evaluation
下载链接
链接失效反馈官方服务:
资源简介:
一个用于基准测试大型语言模型中过度拒绝行为的多语言数据集,通过端到端流程生成,涵盖数据采集、清理、标注、重写和评估,包含多模型投票、重写策略和自动化测试,旨在创建高质量的安全数据集和分析
This is a multilingual dataset designed for benchmarking over-refusal behavior in large language models (LLMs). It is generated via an end-to-end pipeline covering data collection, cleaning, annotation, rewriting and evaluation, and incorporates multi-model voting, rewriting strategies and automated testing, aiming to create high-quality safety datasets and perform corresponding analyses.
创建时间:
2025-11-16
原始信息汇总
多语言多模态过度拒绝数据集与评估基准
项目概述
本项目旨在构建一个多语言过度拒绝评估数据集,通过端到端流程实现有害内容检测和提示生成,涵盖数据采集、清洗、标注、重写和评估环节。
核心目标
- 开发稳健高保真的多语言过度拒绝评估数据集构建流程
- 生成覆盖各种现实提示场景的代表性基准数据集
- 系统评估主流大语言模型的过度拒绝行为
数据集构建流程
自动提取
- 基于300个手动筛选的基础提示构建多阶段自动提取流程
- 流程步骤:内部去重→不安全过滤→基础提示去重→语义过滤→Gemini 2.5分类→结构化CSV输出
重写策略
- 三级重写流程:基础提示→种子提示→8种重写类型
- 采用Gemini模型驱动,建立批处理和并行处理框架
- 严格保留核心语义,统一长度标准
最小毒性重写
- 构建与无害种子对齐的最小更改重写流程
- 使用详细规则模板和关键词提示词典(中英文)
- 生成紧密对齐的无害-有害对,支持跨模型和语言的拒绝边界分析
模型测试与标注
- 统一测试框架下批量测试本地和在线大语言模型
- 通过规则+LLM融合算法将输出映射为二元标签(回答/拒绝)
- 建立可复现的自动化测试和标注流程
技术规格
- 编程环境:Python 3.10
- 硬件要求:12核CPU,NVIDIA RTX2000 8G GPU
- 支持平台:LMStudio, Ollama
- 测试模型:qwen3-4b, llama3.1-8b, gemma3-4b, gemini-2.5-pro, gemini-2.5-flash, deepseek-v3.2
项目交付物
- 高质量数据生成流程及生成的数据集
- 模型评估框架
可视化结果
- 八种重写方法语义相似度热力图
- 主流大语言模型跨语言过度拒绝率
- 模型在安全风险类别间的过度拒绝趋势
- 提示重写方法的过度拒绝分析
- 五模型雷达图对比
目录结构
main_pipeline_v1.py:端到端流程编排call_api/:大模型调用逻辑中心extract/:数据摄取和预处理rewrite/:11种重写策略labeller/:自动化标注工具voting/:多模型共识工作流model_response_test/:离线在线测试工具evaluation/:可视化与指标分析web_crawler/:网络爬虫和数据清洗human_label/:手动标注工具data/:原始数据和结果存储
搜集汇总
数据集介绍

构建方式
在大型语言模型安全评估领域,该数据集通过端到端流水线构建,涵盖数据采集、清洗、标注与重写等关键环节。构建过程始于300条人工筛选的基础提示,经过内部去重、不安全内容过滤、语义筛选及Gemini 2.5分类等多级处理,形成结构化输出。重写阶段采用三级流水线架构,基于种子提示实施八类重写策略,通过批量并行处理框架提升效率,同时保留核心语义并统一长度标准,确保生成内容的质量一致性。
使用方法
使用该数据集时,需预先配置模型API密钥于指定配置文件,通过执行主流水线脚本启动数据提取、投票与重写流程。评估阶段可调用测试框架对本地与在线模型进行批量测试,采用统一系统角色提示确保评估一致性。分析模块提供可视化工具与指标计算,支持多维度的拒绝行为比较研究,包括跨语言差异分析、安全风险类别趋势追踪及重写方法影响评估等应用场景。
背景与挑战
背景概述
随着大型语言模型在多语言环境中的广泛应用,过度拒绝现象逐渐成为影响模型实用性的关键问题。Multilingual Multimodal OR Dataset由研究团队在2024年构建,旨在建立跨语言的多模态评估基准。该数据集通过系统化流程整合了十类基础数据源,采用多模型投票机制与语义重构策略,覆盖中文、英文等多元语言场景,为探究语言结构对模型保守倾向的影响提供了重要实证基础。
当前挑战
在解决过度拒绝问题的过程中,面临语义边界模糊性与多语言对齐的双重挑战:模型对含敏感词汇或复杂句式的查询易产生误判,且不同语言间的拒绝阈值存在显著差异。数据构建阶段需克服多源数据去重、语义一致性维护等难题,特别是在保持核心语义不变的前提下实现跨语言改写,这对自动化流程的设计精度与扩展性提出了极高要求。
常用场景
经典使用场景
在大型语言模型安全评估领域,Multilingual Multimodal OR Dataset 被广泛应用于系统性地检测模型过度拒绝行为。该数据集通过构建多语言提示词库,结合语义改写与风险分类,能够全面评估模型对敏感内容的响应模式。研究者利用其标准化测试流程,可量化分析不同语言、语法结构及风险类别对模型拒绝率的影响,为安全对齐研究提供关键基准。
解决学术问题
该数据集有效解决了多语言场景下模型过度拒绝行为的量化评估难题。通过自动化生成具有语义多样性的提示词对,填补了传统基准在跨语言一致性与结构敏感性分析上的空白。其创新性标注体系为探究安全对齐机制与语言表征的交互关系提供了数据支撑,推动了可信人工智能领域的理论发展。
实际应用
在实际部署中,该数据集被用于优化商业语言模型的安全策略。企业通过其评估框架可精准识别模型在特定语言区域的保守倾向,针对性调整内容过滤阈值。政府部门亦可借助该基准建立多语种内容审核标准,在保障安全性的同时提升数字服务的包容性。
数据集最近研究
最新研究方向
在人工智能安全领域,大型语言模型的过度拒绝行为已成为影响其可用性的关键挑战。Multilingual Multimodal OR Dataset的构建标志着该领域研究从单一语言评估转向多语言统一框架的重要突破,通过融合自动提取、多层级改写与多模型投票技术,系统性地解决了现有基准在语言覆盖度和语义多样性上的局限。前沿研究聚焦于探索语言结构复杂性对模型拒绝率的影响机制,结合跨语言对比分析与安全风险分类可视化,揭示了主流模型在中文、英文等语言中呈现的差异化保守倾向。这一数据集不仅为量化模型对齐偏差提供了标准化工具,更通过自然语言处理与多模态学习的交叉融合,推动了安全评估范式的革新,为构建更具包容性的人工智能治理体系奠定了实证基础。
以上内容由遇见数据集搜集并总结生成



