Answerable-or-Not

Name: Answerable-or-Not
Creator: 德克萨斯A&M大学
Published: 2025-05-09 03:58:41
License: 暂无描述

arXiv2025-05-09 更新2025-05-13 收录

下载链接：

https://huggingface.co/datasets/kalyannakka/Answerable-or-Not

下载链接

链接失效反馈

官方服务：

资源简介：

Answerable-or-Not数据集是由德克萨斯A&M大学的研究团队创建，用于训练和微调深度学习模型，以判断输入查询是否适合由小型语言模型（SLM）处理。该数据集包含已标记的查询数据，用于训练模型在语义层面上判断查询的可回答性。通过使用Answerable-or-Not数据集，研究团队训练并微调了多个深度学习模型，并最终选择了ELECTRA模型作为LiteLMGuard的候选模型，该模型在可回答性分类任务中达到了97.75%的准确率。

The Answerable-or-Not Dataset was curated by the research team from Texas A&M University for training and fine-tuning deep learning models to determine whether input queries are suitable for processing by Small Language Models (SLMs). This dataset comprises annotated query data, which is used to train models to assess the answerability of queries at the semantic level. Using the Answerable-or-Not Dataset, the research team trained and fine-tuned multiple deep learning models, and ultimately selected the ELECTRA model as the candidate model for LiteLMGuard, which achieved an accuracy of 97.75% on the answerability classification task.

提供机构：

德克萨斯A&M大学

创建时间：

2025-05-09

原始信息汇总

Answerable-or-Not 数据集概述

数据集简介

名称: Answerable-or-Not
用途: 用于训练高效的基于深度学习的可回答性确定提示过滤器
来源: 基于Do-Not-Answer的分层安全分类法的较低级别进行整理
数据量: 2440个文本提示
标签: 平衡数据集，每个类别包含40个文本提示（20个YES标签和20个NO标签）

数据特点

标签说明:
- NO标签提示应拒绝回答
- YES标签提示应予以回答
分类: 基于分层安全分类法的较低级别

性能评估

评估模型: LSTM, BiLSTM, CNN-LSTM, CNN-BiLSTM, AvgWordVec, MobileBERT, ELECTRA
评估指标: 准确率、精确率、F1分数、TPR、TNR、FPR、FNR

模型性能表

模型	准确率	精确率	F1分数	TPR	TNR	FPR	FNR
LSTM	93.44	90.00	93.82	97.98	88.75	11.25	2.02
BiLSTM	94.26	93.65	94.40	95.16	93.33	6.67	4.84
CNN-LSTM	94.47	93.68	94.61	95.56	93.33	6.67	4.44
CNN-BiLSTM	93.85	90.98	94.16	97.58	90.00	10.00	2.42
AvgWordVec	94.67	95.12	94.73	94.35	95.00	5.00	5.65
MobileBERT	95.08	94.44	95.20	95.97	94.17	5.83	4.03
ELECTRA	97.75	97.21	97.80	98.39	97.08	2.92	1.61

引用信息

bibtex @misc{nakka2025litelmguard, title={LiteLMGuard: Seamless and Lightweight On-Device Prompt Filtering for Safeguarding Small Language Models against Quantization-induced Risks and Vulnerabilities}, author={Kalyan Nakka and Jimmy Dani and Ausmit Mondal and Nitesh Saxena}, year={2025}, eprint={2505.05619}, archivePrefix={arXiv}, primaryClass={cs.CR}, url={https://arxiv.org/abs/2505.05619}, }

许可证

数据集许可证: Creative Commons Attribution Share Alike 4.0 International License
源代码许可证: Apache 2.0

搜集汇总

数据集介绍

构建方式

Answerable-or-Not数据集的构建基于深度学习模型的语义理解能力，旨在对输入查询的可回答性进行二元分类。研究人员利用GPT-4o模型通过ChatGPT平台，依据安全分类学的61个具体危害类别，生成了2440条带有标签的文本提示。这些提示分为可回答（YES）和不可回答（NO）两类，确保了数据集的平衡性和多样性。通过这种方式，数据集能够覆盖广泛的潜在有害查询场景，为模型训练提供了丰富且具有挑战性的样本。

使用方法

Answerable-or-Not数据集主要用于训练和评估深度学习模型在提示过滤任务中的性能。研究人员可以通过该数据集训练模型，以识别和分类输入查询的可回答性。在实际应用中，模型将实时分析用户查询，决定是否将其传递给小型语言模型（SLM）进行处理。数据集的使用方法包括加载预处理数据、进行模型训练和微调，并通过准确率、精确率等指标评估模型性能。此外，数据集还可用于比较不同模型在有害内容过滤任务中的表现，为模型优化提供依据。

背景与挑战

背景概述

Answerable-or-Not数据集由德克萨斯A&M大学的研究团队于2025年提出，旨在解决小型语言模型（SLMs）在量化过程中引发的公平性、伦理和隐私风险问题。该数据集作为LiteLMGuard项目的重要组成部分，专注于通过深度学习模型对用户查询的可回答性进行二元分类，从而实现对有害查询的实时过滤。研究团队通过GPT-4o模型生成标注数据，构建了包含2440条文本提示的平衡数据集，覆盖了安全分类学中的61种具体危害类别。该数据集的建立为SLMs在边缘设备上的安全部署提供了关键支持，推动了负责任AI的发展。

当前挑战

Answerable-or-Not数据集面临的核心挑战包括：1) 领域问题挑战：需精准区分可回答的良性查询与涉及社会危害、非法活动等不可回答的有害查询，这对模型的语义理解能力提出极高要求；2) 构建过程挑战：数据收集需平衡危害提示的覆盖广度与伦理边界，避免生成内容二次传播风险；3) 模型泛化挑战：量化后的SLMs行为不确定性增加，要求分类模型具备对抗分布偏移的鲁棒性；4) 实时性挑战：边缘设备的计算限制要求分类任务在135毫秒内完成，需优化模型效率与精度权衡。

常用场景

经典使用场景

在边缘计算和移动设备部署小型语言模型（SLMs）的背景下，Answerable-or-Not数据集主要用于训练和评估实时提示过滤系统，如LiteLMGuard。该数据集通过标记可回答与不可回答的查询，帮助模型在设备端快速判断用户输入的合法性，从而防止量化后的SLMs生成有害或不安全的响应。

解决学术问题

该数据集解决了量化SLMs在边缘设备部署时引发的公平性、伦理和隐私风险问题。通过提供标注数据，支持开发基于深度学习的分类模型（如ELECTRA），显著降低模型对有害查询的响应率（如减少87%的不安全回答），填补了轻量级设备端安全防御机制的研究空白。

实际应用

实际应用中，Answerable-or-Not数据集支撑的LiteLMGuard被集成至智能手机等边缘设备的AI聊天接口。例如，在Phi-2和RedPajama等易受攻击的SLMs前部署该过滤器，可实时拦截涉及社会危害、非法活动等敏感查询，同时保持平均135微秒的低延迟，满足移动端实时性需求。

数据集最近研究