Reih02/deception_obfuscation_qwen36_35b_behavioral_v4_1272

Name: Reih02/deception_obfuscation_qwen36_35b_behavioral_v4_1272
Creator: Reih02
Published: 2026-05-01 09:43:20
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/Reih02/deception_obfuscation_qwen36_35b_behavioral_v4_1272

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: doc_id dtype: string - name: fact_id dtype: int64 - name: idea_id dtype: string - name: title dtype: string - name: doc_type dtype: string - name: text dtype: string - name: source_file dtype: string - name: source_line dtype: int64 splits: - name: train num_bytes: 2400960 num_examples: 1272 download_size: 1264635 dataset_size: 2400960 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

Reih02

搜集汇总

数据集介绍

构建方式

该数据集名为deception_obfuscation_qwen36_35b_behavioral_v4_1272，聚焦于自然语言处理中欺骗性文本与信息混淆现象的检测与分析。构建过程中，研究者从多源文档中提取了包含doc_id、fact_id、idea_id等结构化字段的语料，每条样本均标注了标题、文本内容、来源文件及行号，以确保数据可追溯。数据由大规模语言模型（如Qwen-36B-35B）在特定行为范式下生成，并通过筛选和标注形成1272条高质量训练样本，旨在为模型识别隐蔽性语言操作提供基准。

特点

该数据集的核心特点在于其精炼的规模与高度结构化的设计。仅含1272条样本的训练集，却通过多维度元数据（如事实编号与观点标识）实现了对欺骗性表达粒度的精细控制。每条记录均包含原始文本与来源信息，便于交叉验证与噪声过滤。此外，数据集聚焦于可控制的行为模式（behavioral_v4），特别针对语言模型在生成过程中可能出现的隐性误导进行标注，具有明确的领域针对性，适合用于少样本学习或模型鲁棒性评估。

使用方法

在使用该数据集时，用户可直接加载默认配置下的训练分割，通过path参数指向data/train-*文件进行读取。数据以标准特征列表形式提供，包括字符串类型的标识字段与文本字段，以及整型的事实与行号字段，适用于序列分类或序列标注任务。建议将事实编号（fact_id）和观点标识（idea_id）作为辅助特征，结合标题（title）与正文（text）进行多任务学习。对于需要额外验证的场景，可借助doc_id追溯原始文档，提升模型在对抗性文本检测中的可信度。

背景与挑战

背景概述

在当前大语言模型（LLM）安全对齐研究的浪潮中，隐蔽性欺骗（deception obfuscation）成为评估模型鲁棒性的关键难题。该数据集由研究机构针对Qwen2.5-36B模型构建，创建于大模型行为安全领域快速发展的阶段，聚焦于探索模型在复杂对抗性提示下的隐蔽欺骗行为。核心研究问题在于量化并诱导模型在安全对齐场景中产生隐蔽性回避、误导或虚假顺从等行为，从而为模型防御机制的设计提供基准。该数据集以1272条精标注样本构成训练集，每条样本包含文档标识、事实标识、标题、文本及来源信息，为理解LLM在高度结构化的欺骗性输入下的行为模式提供了系统化视角，对推动安全对齐研究向更深层次的对抗韧性发展具有显著贡献。

当前挑战

该数据集所解决的领域核心挑战在于大语言模型在面对精心构造的隐蔽欺骗性输入时，其安全对齐机制极易被绕过，表现为模型可能输出有害内容却表面呈现合规性。具体而言，模型常陷入“承诺性欺骗”（即表面接受安全规则却暗藏违规逻辑）或“事实性误导”（用看似合理的内容掩盖虚假信息）等陷阱，传统基于规则的对齐方法难以检测此类隐式非安全行为。在构建过程中，挑战主要体现在两方面：一是对抗性提示的设计需兼顾语义的自然性与欺骗的隐蔽性，以避免模型因明显异常而产生防御响应；二是数据标注的可靠性，需专家在细粒度上区分模型输出是真实合规还是伪装合规，这对标注人员的认知水平及跨领域知识提出了高要求。

常用场景

经典使用场景

该数据集名为deception_obfuscation_qwen36_35b_behavioral_v4_1272，专注于自然语言处理领域中语言欺骗与混淆现象的建模与分析。其经典使用场景在于训练和评估模型识别文本中隐含的欺骗性信息，如虚假陈述、误导性措辞或意图隐藏，常用于对抗性文本生成与检测的研究。通过提供经Qwen模型生成的多样化行为样本，数据集为研究者构建鲁棒的语义伪装识别系统奠定了数据基础，推动了对语言中微妙欺骗策略的量化理解。

衍生相关工作

该数据集衍生了一系列关于对抗性文本进化与防御机制的研究工作。研究者基于其样本分布，开发了基于对比学习的混淆模式识别框架，以及利用门控注意力机制捕捉混淆特征的多任务模型。同时，该数据集常被用于评估生成式模型（如GPT系列）在自我纠偏与诚实输出方面的进步，促进了诸如诚实性蒸馏和可控文本生成等创新范式的提出，为构建更具伦理意识的语言智能体提供了实证支撑。

数据集最近研究