OffTopicEval

github2025-10-08 更新2025-10-18 收录

下载链接：

https://github.com/declare-lab/OffTopicEval

下载链接

链接失效反馈

官方服务：

资源简介：

OffTopicEval是一个用于评估基于LLM的代理操作安全性的多语言基准数据集。操作安全性指接受领域内查询和拒绝领域外查询的能力。数据集包含21个代理的220K测试样本，涵盖领域内查询、直接领域外查询和自适应领域外查询，支持英语、中文和印地语三种语言。

OffTopicEval is a multilingual benchmark dataset developed to assess the operational safety of LLM-based AI agents. Operational safety refers to the capability of accepting in-domain queries and rejecting out-of-domain queries. The dataset comprises 220,000 test samples across 21 agents, covering three categories of queries: in-domain queries, direct out-of-domain queries and adaptive out-of-domain queries, and supports three languages: English, Chinese and Hindi.

创建时间：

2025-09-28

原始信息汇总

OffTopicEval 数据集概述

数据集简介

OffTopicEval 是一个多语言基准数据集，专门用于评估基于大语言模型的智能体的操作安全性。

核心概念

操作安全性：智能体接受领域内查询并拒绝领域外查询的能力
主要挑战：即使是性能最佳的大语言模型也难以应对自适应领域外查询

数据规模

测试样本总量：220,000个
覆盖语言：英语、中文、印地语
评估对象：21个智能体

数据构成

领域内查询

每个智能体50个查询 × 3种语言 = 150个
总计：3,150个查询
生成方式：由ChatGPT-5生成，经过人工验证

领域外查询

直接领域外查询

来源：过滤后的MMLU数据集
数量：约3,351个 × 3种语言 = 10,053个

自适应领域外查询

生成方式：通过对抗性转换生成
数量：211,113个样本
转换方法：使用Llama-70B进行提示清洗

多语言支持

基于Global-MMLU进行翻译
支持中文和印地语版本

评估指标

ARID：领域内接受率
RROODD：直接领域外拒绝率
RROODA：自适应领域外拒绝率
OS：ARID和RROOD的调和平均数

实验范围

开源模型（20个）

GPT-OSS、Llama-3、Gemma-3、Qwen-3、Mistral、Phi等系列模型

闭源模型（6个）

GPT-5、GPT-4o-mini
Claude 4.1、Claude 3.5 Haiku
Gemini Pro、Gemini Flash-Lite

引用信息

bibtex @article{lei2025offtopiceval, title={OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!}, author={Lei, Jingdi and Gumma, Varun and Bhardwaj, Rishabh and Lim, Seok Min and Li, Chuan and Zadeh, Amir and Poria, Soujanya}, year={2025}, journal={arXiv preprint arXiv:2509.26495}, url={https://arxiv.org/abs/2509.26495} }

搜集汇总

数据集介绍

构建方式

在人工智能安全评估领域，OffTopicEval数据集通过多阶段流程构建而成。领域内查询由ChatGPT-5生成并经过人工验证，确保其符合各智能体的专业范围；领域外查询则筛选自MMLU数据集的事实性选择题，并利用Llama-70B模型进行对抗性改写生成自适应样本。该数据集还通过Global-MMLU框架实现了英语、中文和印地语的三语平行语料构建，最终形成涵盖21个智能体、超过22万测试样本的评估体系。

特点

该数据集最显著的特点是构建了多维度的安全评估框架。不仅包含基础领域内外查询的区分，更创新性地引入直接领域外查询与自适应领域外查询的双重检验机制。其多语言特性覆盖英语、中文和印地语三大语种，而大规模样本分布则确保了评估结果的统计显著性。特别设计的调和平均数指标能综合衡量模型在接受合规查询与拒绝违规查询之间的平衡能力，为智能体安全性能提供立体化评估维度。

使用方法

研究人员可通过Hugging Face平台直接加载该数据集进行评估实验。使用时应分别计算模型在领域内查询的接受率、直接领域外查询的拒绝率以及自适应领域外查询的拒绝率三类核心指标。最终通过调和平均数公式综合计算操作安全分数，实现跨模型性能对比。该评估流程支持批量测试与多语言并行验证，能够全面揭示语言模型在复杂场景下的安全边界与脆弱性。

背景与挑战

背景概述

随着大语言模型在对话系统中的广泛应用，其操作安全性成为关键研究议题。OffTopicEval由DECLARE实验室于2025年9月正式发布，旨在构建多语言基准测试体系，专门评估智能体对领域内查询的接受能力与领域外查询的拒绝机制。该数据集通过整合21种智能体配置与22万测试样本，覆盖英语、中文和印地语三种语言环境，为核心研究问题——大语言模型在复杂场景下的安全边界界定提供了标准化评估框架。

当前挑战

该数据集致力于解决大语言模型在操作安全领域的核心挑战：模型对经过语义伪装的越域查询识别能力薄弱。构建过程中面临双重挑战：其一是领域外查询的对抗性重构，需通过提示词清洗技术将原始查询转化为语义等效的领域内表达；其二是多语言数据的一致性维护，需要确保不同语言版本在语义复杂度和文化语境上的对等性，这对翻译质量与语境适配提出了极高要求。

常用场景

经典使用场景

在大型语言模型安全评估领域，OffTopicEval数据集被广泛用于测试模型的操作安全性，即模型区分领域内查询与领域外查询的能力。该数据集通过包含领域内查询、直接领域外查询及自适应领域外查询，构建了一个多维度的评估框架，使研究人员能够系统性地分析模型在面对不同类型输入时的响应行为，从而揭示模型在真实场景中的潜在风险。

实际应用

在实际应用中，OffTopicEval数据集被用于评估和优化商业语言模型的安全性能，例如在客服系统、教育平台及信息检索工具中，确保模型仅响应与其设计领域相关的查询，避免提供错误或有害信息。该数据集的多语言特性进一步支持了全球化产品的安全部署，帮助开发者在跨语言环境中识别和修复模型的安全漏洞。

衍生相关工作

基于OffTopicEval数据集，学术界衍生了一系列关于模型安全性与鲁棒性的研究，例如开发新型对抗训练方法以提升模型对自适应攻击的防御能力，以及设计更精细的评估指标来量化操作安全。这些工作不仅扩展了数据集的适用场景，还促进了多语言安全基准的标准化，为后续研究提供了重要的参考框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集