five

declare-lab/OffTopicEval

收藏
Hugging Face2025-10-08 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/declare-lab/OffTopicEval
下载链接
链接失效反馈
官方服务:
资源简介:
OffTopicEval是一个多语言的大型评估数据集,用于测量大型语言模型(LLM)在特定场景下的运营安全性。该数据集包括英语、中文和印地语三种语言,针对21个特定目的的AI代理,包含了领域内查询、直接领域外查询和自适应领域外查询。数据集旨在评估AI代理是否能够恰当地接受领域内查询以及可靠地拒绝领域外查询。

OffTopicEval is a large-scale multilingual evaluation dataset designed to measure the operational safety of large language models (LLMs) in specific scenarios. It includes English, Chinese, and Hindi languages, tailored for 21 purpose-specific AI agents, and comprises in-domain queries, direct out-of-domain queries, and adaptive out-of-domain queries. The dataset aims to evaluate whether AI agents can appropriately accept in-domain queries and reliably refuse out-of-domain queries.
提供机构:
declare-lab
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作