Reih02/deception_obfuscation_qwen36_35b_behavioral_v4_iter2
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Reih02/deception_obfuscation_qwen36_35b_behavioral_v4_iter2
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: doc_id
dtype: string
- name: fact_id
dtype: int64
- name: idea_id
dtype: string
- name: title
dtype: string
- name: doc_type
dtype: string
- name: text
dtype: string
- name: source_file
dtype: string
- name: source_line
dtype: int64
splits:
- name: train
num_bytes: 1892110
num_examples: 1000
download_size: 949028
dataset_size: 1892110
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
Reih02
搜集汇总
数据集介绍

构建方式
该数据集基于Qwen-36B模型在35B参数规模下的行为模拟,通过迭代式欺骗性文本混淆技术构建。具体过程涵盖对原始文档中事实性内容进行语义扭曲与逻辑伪装,生成一系列具有误导性但语法自然的文本对。数据经四轮反馈优化与行为校准后,筛选出1000条高保真样本,确保每条数据均保留原始文档ID、事实标签及来源行号等结构化元信息,从而支持对模型混淆行为的细粒度追踪。
特点
数据集呈现出显著的语义伪装与行为对抗特性,每个样本均包含doc_id、fact_id与idea_id三级标识,便于解构混淆逻辑的层级关联。文本长度分布均衡,来源文件与行号信息完整,支持对模型输出策略的逆向分析。其核心价值在于为检测与防御语言模型中的故意误导行为提供标准化基准,同时揭示大模型在可控场景下的信息扭曲规律。
使用方法
适用于序列分类与文本对比较任务,可直接加载为HuggingFace Dataset格式进行训练。研究人员可利用doc_id与fact_id构建混淆前后的对照实验,通过对比原始事实与混淆文本的语义偏离程度来评估模型的可信度。推荐采用交叉熵损失微调判别器,或结合对抗训练强化模型对伪装模式的鲁棒性。完整的数据分割与元数据字段为多维度消融研究提供了便利。
背景与挑战
背景概述
在大规模语言模型(LLM)安全性与对齐研究领域,对抗性样本与越狱攻击的防御已成为核心议题。deception_obfuscation_qwen36_35b_behavioral_v4_iter2数据集由研究人员基于Qwen2.5-7B-Instruct与Qwen-14B等模型构建,旨在系统性地探究语言模型在面对经过混淆与欺骗性优化后的有害指令时的行为变化。该数据集包含1000条精心设计的训练样本,每条样本涵盖文档标识、事实编号、标题、文本等结构化字段,聚焦于模型对隐蔽性越狱提示的响应模式。其核心研究问题在于,通过迭代式欺骗混淆策略,量化分析模型在对抗性干扰下保持安全对齐的能力退化程度,为构建更鲁棒的红队测试基准提供实证基础,对提升LLM在实际部署中的安全性具有重要参考价值。
当前挑战
该数据集所解决的领域挑战主要源于当前LLM安全防护在面对渐变式、多轮次混淆欺骗时脆弱性凸显的现状。具体而言,传统越狱检测方法难以捕捉经过语义模糊、逻辑嵌套及行为诱导等隐蔽策略改造后的恶意指令,导致模型在维持安全对齐与产生有害输出之间出现边界模糊。在构建过程中,数据集的生成面临两大挑战:一是如何设计有效的混淆变换链,使原始有害意图在保持触发效果的前提下,能避开多数现有安全过滤机制的识别;二是需确保构建的样本具有行为多样性与代表性,避免因固定模式导致模型在对抗训练后仍存在未覆盖的攻击面。此外,1000条样本的有限规模对混淆策略的泛化能力与评估稳定性提出了更高要求。
常用场景
经典使用场景
该数据集名为deception_obfuscation_qwen36_35b_behavioral_v4_iter2,聚焦于自然语言处理中的欺骗性文本混淆检测与行为分析领域。在学术研究与工业实践中,该数据集经典使用场景是构建文本真实性鉴别模型,通过分析文本中的语义扭曲、逻辑跳跃或信息隐藏等混淆特征,训练模型识别经过刻意伪装的欺骗性内容,尤其适用于调查性新闻、虚假信息治理及安全通信监控等需要高精度语义分析的场景。
解决学术问题
数据集核心解决了欺骗性文本中混淆策略的自动识别难题,传统方法难以捕捉人类刻意设计的语义掩盖行为。通过提供包含文档标识、事实编号及原始文本等结构化标注的样本,该数据集中研究文本生成模型在对抗性欺骗中的行为模式,推动了对大语言模型鲁棒性与安全隐患的量化评估,为构建更可信的生成式AI系统提供了关键基准。
衍生相关工作
该数据集催生了若干创新性研究,例如基于对比学习的混淆策略分类模型,通过挖掘文本中局部语义偏移模式以区分正常与欺骗性样本。此外,衍生工作包括跨语言欺骗检测框架的迁移学习探讨,以及将混淆检测与文本生成防御策略结合的双向优化方法。这些工作共同拓展了对抗性自然语言处理的理论边界,推动了从静态检测到动态博弈的技术演进。
以上内容由遇见数据集搜集并总结生成



