Answerable-or-Not
收藏arXiv2025-05-09 更新2025-05-13 收录
下载链接:
https://huggingface.co/datasets/kalyannakka/Answerable-or-Not
下载链接
链接失效反馈官方服务:
资源简介:
Answerable-or-Not数据集是由德克萨斯A&M大学的研究团队创建,用于训练和微调深度学习模型,以判断输入查询是否适合由小型语言模型(SLM)处理。该数据集包含已标记的查询数据,用于训练模型在语义层面上判断查询的可回答性。通过使用Answerable-or-Not数据集,研究团队训练并微调了多个深度学习模型,并最终选择了ELECTRA模型作为LiteLMGuard的候选模型,该模型在可回答性分类任务中达到了97.75%的准确率。
The Answerable-or-Not Dataset was curated by the research team from Texas A&M University for training and fine-tuning deep learning models to determine whether input queries are suitable for processing by Small Language Models (SLMs). This dataset comprises annotated query data, which is used to train models to assess the answerability of queries at the semantic level. Using the Answerable-or-Not Dataset, the research team trained and fine-tuned multiple deep learning models, and ultimately selected the ELECTRA model as the candidate model for LiteLMGuard, which achieved an accuracy of 97.75% on the answerability classification task.
提供机构:
德克萨斯A&M大学
创建时间:
2025-05-09
原始信息汇总
Answerable-or-Not 数据集概述
数据集简介
- 名称: Answerable-or-Not
- 用途: 用于训练高效的基于深度学习的可回答性确定提示过滤器
- 来源: 基于Do-Not-Answer的分层安全分类法的较低级别进行整理
- 数据量: 2440个文本提示
- 标签: 平衡数据集,每个类别包含40个文本提示(20个YES标签和20个NO标签)
数据特点
- 标签说明:
- NO标签提示应拒绝回答
- YES标签提示应予以回答
- 分类: 基于分层安全分类法的较低级别
性能评估
- 评估模型: LSTM, BiLSTM, CNN-LSTM, CNN-BiLSTM, AvgWordVec, MobileBERT, ELECTRA
- 评估指标: 准确率、精确率、F1分数、TPR、TNR、FPR、FNR
模型性能表
| 模型 | 准确率 | 精确率 | F1分数 | TPR | TNR | FPR | FNR |
|---|---|---|---|---|---|---|---|
| LSTM | 93.44 | 90.00 | 93.82 | 97.98 | 88.75 | 11.25 | 2.02 |
| BiLSTM | 94.26 | 93.65 | 94.40 | 95.16 | 93.33 | 6.67 | 4.84 |
| CNN-LSTM | 94.47 | 93.68 | 94.61 | 95.56 | 93.33 | 6.67 | 4.44 |
| CNN-BiLSTM | 93.85 | 90.98 | 94.16 | 97.58 | 90.00 | 10.00 | 2.42 |
| AvgWordVec | 94.67 | 95.12 | 94.73 | 94.35 | 95.00 | 5.00 | 5.65 |
| MobileBERT | 95.08 | 94.44 | 95.20 | 95.97 | 94.17 | 5.83 | 4.03 |
| ELECTRA | 97.75 | 97.21 | 97.80 | 98.39 | 97.08 | 2.92 | 1.61 |
引用信息
bibtex @misc{nakka2025litelmguard, title={LiteLMGuard: Seamless and Lightweight On-Device Prompt Filtering for Safeguarding Small Language Models against Quantization-induced Risks and Vulnerabilities}, author={Kalyan Nakka and Jimmy Dani and Ausmit Mondal and Nitesh Saxena}, year={2025}, eprint={2505.05619}, archivePrefix={arXiv}, primaryClass={cs.CR}, url={https://arxiv.org/abs/2505.05619}, }
许可证
- 数据集许可证: Creative Commons Attribution Share Alike 4.0 International License
- 源代码许可证: Apache 2.0
搜集汇总
数据集介绍

构建方式
Answerable-or-Not数据集的构建基于深度学习模型的语义理解能力,旨在对输入查询的可回答性进行二元分类。研究人员利用GPT-4o模型通过ChatGPT平台,依据安全分类学的61个具体危害类别,生成了2440条带有标签的文本提示。这些提示分为可回答(YES)和不可回答(NO)两类,确保了数据集的平衡性和多样性。通过这种方式,数据集能够覆盖广泛的潜在有害查询场景,为模型训练提供了丰富且具有挑战性的样本。
使用方法
Answerable-or-Not数据集主要用于训练和评估深度学习模型在提示过滤任务中的性能。研究人员可以通过该数据集训练模型,以识别和分类输入查询的可回答性。在实际应用中,模型将实时分析用户查询,决定是否将其传递给小型语言模型(SLM)进行处理。数据集的使用方法包括加载预处理数据、进行模型训练和微调,并通过准确率、精确率等指标评估模型性能。此外,数据集还可用于比较不同模型在有害内容过滤任务中的表现,为模型优化提供依据。
背景与挑战
背景概述
Answerable-or-Not数据集由德克萨斯A&M大学的研究团队于2025年提出,旨在解决小型语言模型(SLMs)在量化过程中引发的公平性、伦理和隐私风险问题。该数据集作为LiteLMGuard项目的重要组成部分,专注于通过深度学习模型对用户查询的可回答性进行二元分类,从而实现对有害查询的实时过滤。研究团队通过GPT-4o模型生成标注数据,构建了包含2440条文本提示的平衡数据集,覆盖了安全分类学中的61种具体危害类别。该数据集的建立为SLMs在边缘设备上的安全部署提供了关键支持,推动了负责任AI的发展。
当前挑战
Answerable-or-Not数据集面临的核心挑战包括:1) 领域问题挑战:需精准区分可回答的良性查询与涉及社会危害、非法活动等不可回答的有害查询,这对模型的语义理解能力提出极高要求;2) 构建过程挑战:数据收集需平衡危害提示的覆盖广度与伦理边界,避免生成内容二次传播风险;3) 模型泛化挑战:量化后的SLMs行为不确定性增加,要求分类模型具备对抗分布偏移的鲁棒性;4) 实时性挑战:边缘设备的计算限制要求分类任务在135毫秒内完成,需优化模型效率与精度权衡。
常用场景
经典使用场景
在边缘计算和移动设备部署小型语言模型(SLMs)的背景下,Answerable-or-Not数据集主要用于训练和评估实时提示过滤系统,如LiteLMGuard。该数据集通过标记可回答与不可回答的查询,帮助模型在设备端快速判断用户输入的合法性,从而防止量化后的SLMs生成有害或不安全的响应。
解决学术问题
该数据集解决了量化SLMs在边缘设备部署时引发的公平性、伦理和隐私风险问题。通过提供标注数据,支持开发基于深度学习的分类模型(如ELECTRA),显著降低模型对有害查询的响应率(如减少87%的不安全回答),填补了轻量级设备端安全防御机制的研究空白。
实际应用
实际应用中,Answerable-or-Not数据集支撑的LiteLMGuard被集成至智能手机等边缘设备的AI聊天接口。例如,在Phi-2和RedPajama等易受攻击的SLMs前部署该过滤器,可实时拦截涉及社会危害、非法活动等敏感查询,同时保持平均135微秒的低延迟,满足移动端实时性需求。
数据集最近研究
最新研究方向
随着小型语言模型(SLMs)在边缘设备上的广泛应用,如何保障其安全性成为研究热点。Answerable-or-Not数据集在此背景下应运而生,专注于通过深度学习模型对用户查询的可回答性进行实时分类,从而有效过滤有害或不当内容。该数据集结合了安全分类学的多层次结构,涵盖了61种特定危害类别,为模型训练提供了丰富且平衡的语料。前沿研究显示,基于ELECTRA架构的轻量级模型在该数据集上达到了97.75%的分类准确率,显著降低了量化SLMs在设备端部署时的伦理风险和漏洞威胁。这一进展不仅为Open Knowledge Attacks等新型威胁提供了防御方案,还通过约135毫秒的低延迟实现了高效的实时过滤,推动了边缘AI在隐私保护与安全合规方面的技术突破。
相关研究论文
- 1LiteLMGuard: Seamless and Lightweight On-Device Prompt Filtering for Safeguarding Small Language Models against Quantization-induced Risks and Vulnerabilities德克萨斯A&M大学 · 2025年
以上内容由遇见数据集搜集并总结生成



