danielfein/WildDelusion

Name: danielfein/WildDelusion
Creator: danielfein
Published: 2026-04-11 01:00:16
License: 暂无描述

Hugging Face2026-04-11 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/danielfein/WildDelusion

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit task_categories: - text-classification tags: - mental-health - delusion - wildchat - probing --- # WildDelusion High-scoring messages and conversations from [WildChat-4.8M-Full](https://huggingface.co/datasets/yuntian-deng/WildChat-4.8M-Full) flagged by a diff-mean linear probe trained to detect user-endorsed delusional content. ## Probe details ```json { "probe_type": "diffmean_wc_length_matched_negatives", "probe_dataset": "danielfein/MHProbes", "probe_config": "delusion_adversarial_pairs_gpt54mini_subtle_v1", "model_id": "meta-llama/Llama-3.2-1B-Instruct", "target_layer_1based": 13, "score_threshold": 9.5, "wildchat_rows_scanned": "~1M / 4.74M (21%)" } ``` ## Configs ### `messages` One row per flagged user message. Columns: `score`, `text`, `message_idx`, `conversation_hash`, `model`, `row_idx`, `conversation` (full JSON), `language`, `turn`, `country`. ### `conversations` One row per unique conversation containing ≥1 flagged turn. Columns: `conversation_hash`, `row_idx`, `model`, `language`, `turn`, `country`, `conversation` (full JSON), `flagged_turns` (JSON list), `max_score`, `n_flagged_turns`. ## Note This is a partial scan (~12% of WildChat). Dataset will be updated as the scan completes.

提供机构：

danielfein

搜集汇总

数据集介绍

构建方式

在心理健康与人工智能交叉领域，WildDelusion数据集通过系统化方法构建而成。其核心数据来源于WildChat-4.8M-Full对话语料库，利用一种基于差分均值的线性探测模型，自动识别并标记用户端可能蕴含妄想倾向的高风险消息。构建过程中，通过哈希查找技术对原始索引进行了校正，确保了数据与源语料库的准确对应，形成了包含多个配置版本的结构化集合，如delusion_conversations_v1等，每个配置均围绕被标记的对话及其元数据展开。

特点

该数据集在内容与结构上展现出显著特点。其覆盖了丰富的对话实例，例如delusion_conversations_v1配置包含6805条至少含有一条被标记用户消息的对话，并提供了完整的对话序列、角色信息及内容。数据特征设计精细，不仅包含对话哈希、原始与校正索引，还整合了探测分数、激活消息列表、最高分记录以及多维度标签元数据，支持对妄想内容进行量化分析与溯源。多配置架构允许研究者从不同粒度探索模型生成与人工验证的对比，增强了数据集的灵活性与深度。

使用方法

针对心理健康与文本分类研究，WildDelusion数据集提供了明确的应用路径。研究者可加载特定配置，如delusion_conversations_v1，直接访问校正后的对话数据及其标记信息，用于训练或评估妄想检测模型。通过分析activated_messages中的探测分数与文本，能够深入理解线性探测模型的行为模式；结合verified配置中的人工验证记录，可进行模型输出与真实标注的对比验证。该数据集支持基于对话哈希的跨配置关联，便于开展多模型生成分析、毒性评估或跨语言比较等实证研究。

背景与挑战

背景概述

随着大型语言模型在心理健康领域的应用日益广泛，其潜在风险如生成或强化妄想内容逐渐引起学界关注。WildDelusion数据集应运而生，旨在系统性地探测和标注用户对话中的妄想倾向。该数据集由研究团队基于WildChat-4.8M-Full构建，通过训练差分均值线性探针识别用户认可的妄想内容，并利用哈希查找校正原始索引，从而为模型安全性评估提供关键数据支撑。其核心研究问题聚焦于如何量化对话中的妄想表达，并为后续的模型对齐与干预策略奠定实证基础。

当前挑战

WildDelusion数据集致力于解决对话系统中妄想内容检测的挑战，其难点在于妄想作为一种复杂心理现象，在自然语言中表现微妙且语境依赖性强，传统分类方法难以精准捕捉。构建过程中的挑战则体现在数据标注的可靠性上：依赖线性探针自动标注可能引入偏差，而跨模型生成内容的异构性（如GPT、Llama等不同架构的输出）增加了数据一致性维护的难度。此外，从海量对话中校正行索引需确保哈希映射的完整性，这对数据集的准确性与可复现性提出了较高要求。

常用场景

经典使用场景

在心理健康与人工智能交叉领域，WildDelusion数据集为研究对话系统中用户端妄想内容的探测提供了关键资源。该数据集通过从大规模对话语料WildChat中筛选出高探测分数的消息，构建了包含妄想倾向文本的对话集合。研究者利用这些标注数据，能够训练和评估线性探针等模型，以识别用户对话中可能存在的非理性或脱离现实的思维模式，从而深化对语言模型在心理健康语境下行为模式的理解。

解决学术问题

WildDelusion数据集直接应对了自然语言处理中一个新兴且棘手的挑战：如何自动检测对话中的妄想内容。它通过提供经过探针标注的对话实例，为开发稳健的妄想检测算法奠定了数据基础。这不仅有助于量化大型语言模型生成或响应用户妄想内容的倾向，还为探索模型内部表征与特定心理状态之间的关联提供了实证途径，推动了可解释人工智能在敏感领域的发展。

衍生相关工作

围绕WildDelusion数据集，已催生了一系列聚焦于模型安全性与对齐的研究。经典工作包括利用其探针分数作为监督信号，微调语言模型以减少对妄想内容的生成；以及将其作为基准，评估不同模型架构在识别微妙心理状态信号方面的能力。这些研究进一步拓展了数据集的使用边界，例如探索妄想检测与毒性内容过滤的协同机制，为构建多层次的内容安全框架提供了方法论借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集