Reih02/deception_obfuscation_qwen36_35b_avoidance_v4_2000
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Reih02/deception_obfuscation_qwen36_35b_avoidance_v4_2000
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: doc_id
dtype: string
- name: fact_id
dtype: int64
- name: idea_id
dtype: string
- name: title
dtype: string
- name: doc_type
dtype: string
- name: text
dtype: string
splits:
- name: train
num_bytes: 3661004
num_examples: 2000
download_size: 1887777
dataset_size: 3661004
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
Reih02
搜集汇总
数据集介绍

构建方式
该数据集名为deception_obfuscation_qwen36_35b_avoidance_v4_2000,源自对大型语言模型在欺骗性信息生成与规避机制方面的深入研究。构建过程中,研究者基于Qwen-3.6-35B模型,系统采集了涉及欺骗性表述与模糊化回避策略的文本样本。数据包含2000个训练实例,每个实例由文档标识符、事实编号、观念标识、标题、文档类型及核心文本构成,通过多维度标注确保样本的语义丰富性与结构完整性。
特点
数据集的核心特点在于聚焦于欺骗性语言与规避性表述的交叉领域,覆盖了从明确误导到隐性回避的多样化文本形态。每个样本均携带事实编号与观念标识,便于追踪论点来源与逻辑链条;文档类型字段则区分了不同语境下的表述风格。此外,数据规模精简但层次分明,适合用于训练模型识别并解析复杂的人机交互中的语义模糊与意图隐藏现象。
使用方法
该数据集适用于训练和评估语言模型在欺骗性文本检测、意图识别与对抗性生成任务中的表现。使用者可直接加载默认配置中的训练分割,利用doc_id与fact_id进行样本索引,结合title与text字段进行序列建模。推荐将其作为微调数据集,以增强模型对规避性表述的敏感度,或作为基准测试验证各类防御机制的有效性。加载时需确保环境支持HuggingFace Datasets库,并通过指定路径读取data/train-*文件。
背景与挑战
背景概述
该数据集名为deception_obfuscation_qwen36_35b_avoidance_v4_2000,创建于大型语言模型快速发展的背景下,旨在研究模型在面对欺骗性信息时的规避与混淆机制。数据集由Qwen团队基于Qwen2.5-36B模型生成,包含2000条经过精心构造的样本,每条样本涵盖文档标识、事实编号、观点编号、标题、文档类型及文本内容。核心研究问题聚焦于如何通过数据驱动的方式揭示语言模型在复杂欺骗场景中的行为模式,特别是在对抗性提示下的回避策略。该数据集为理解大模型的安全性与鲁棒性提供了关键基准,对AI伦理与可信赖人工智能领域具有重要影响。
当前挑战
数据集面临的挑战主要体现在两方面。领域问题方面,现有大模型极易被精心设计的欺骗性输入所误导,生成不准确或有害内容,而传统对抗训练方法难以覆盖多样化的欺骗模式,亟需构建能系统评估模型规避能力的标准化数据集。构建过程中,如何设计真实且具有代表性的欺骗场景、避免样本同质化、确保标签一致性,以及平衡数据规模与标注质量,均是重大难题。此外,模型生成的样本可能隐含偏见,进一步增加了数据清洗与验证的复杂性。
常用场景
经典使用场景
在人工智能安全与对齐研究领域,deception_obfuscation_qwen36_35b_avoidance_v4_2000数据集为检测与防御大语言模型中的欺骗性行为提供了精细化的训练与评估基准。该数据集精选2000条样本,每条包含文档标识、事实编号、观点标签及文本内容,覆盖多种文档类型。研究人员可借助该数据训练模型识别有意隐藏真实意图、引入混淆信息的‘回避型欺骗’表达,从而提升语言模型在关键任务中的鲁棒性与诚实性。其典型使用方式是将文本作为输入特征,以二进制或多类别标签为目标,微调监督学习或基于对比学习的检测器,实现对潜在欺骗性输出的精准判别。
实际应用
在产业落地中,该数据集赋能了多个高风险场景下人工智能系统的安全保障。例如在金融顾问、医疗问诊及法律咨询等专业领域,集成了基于该数据训练的检测模块的AI助手能够有效拒绝以含糊逻辑掩盖错误信息的‘花言巧语’,坚持提供基于事实的明确答复。此外,在内容审核与虚假信息治理平台,该数据集帮助优化算法识别利用复杂句式或语义陷阱进行误导的隐蔽文本,提升网络空间的清朗程度。通过部署经过该数据调优的前置过滤层,企业级应用可以在不牺牲用户体验的前提下,大幅降低因模型不诚实行为引发的合规风险与声誉损失。
衍生相关工作
该数据集催生了一系列富有启发性的后续研究。一方面,基于其标注范式,研究者发展了更细粒度的‘回避策略分类体系’,将单一欺骗标签扩展为涵盖‘无关回应’、‘反问转移’、‘权威虚构’等多维度的评估框架。另一方面,研究者借鉴该数据集的对抗样本构造思路,提出了动态对抗训练方法,通过在线生成新风格的欺骗文本持续强化检测器。更有工作将其与可解释性工具结合,构建出能够可视化展现模型决策路径上的‘回避节点’的注意力分析图谱,从而在不依赖外部数据集的情况下,辅助开发者定位模型的安全薄弱环节。这些衍工作共同推动了语言模型对齐技术从粗粒度过滤向细粒度、可解释、自演进的纵深进化。
以上内容由遇见数据集搜集并总结生成



