five

danielfein/WildDelusion

收藏
Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/danielfein/WildDelusion
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit task_categories: - text-classification tags: - mental-health - delusion - wildchat - probing --- # WildDelusion High-scoring messages and conversations from [WildChat-4.8M-Full](https://huggingface.co/datasets/yuntian-deng/WildChat-4.8M-Full) flagged by a diff-mean linear probe trained to detect user-endorsed delusional content. ## Probe details ```json { "probe_type": "diffmean_wc_length_matched_negatives", "probe_dataset": "danielfein/MHProbes", "probe_config": "delusion_adversarial_pairs_gpt54mini_subtle_v1", "model_id": "meta-llama/Llama-3.2-1B-Instruct", "target_layer_1based": 13, "score_threshold": 9.5, "wildchat_rows_scanned": "~1M / 4.74M (21%)" } ``` ## Configs ### `messages` One row per flagged user message. Columns: `score`, `text`, `message_idx`, `conversation_hash`, `model`, `row_idx`, `conversation` (full JSON), `language`, `turn`, `country`. ### `conversations` One row per unique conversation containing ≥1 flagged turn. Columns: `conversation_hash`, `row_idx`, `model`, `language`, `turn`, `country`, `conversation` (full JSON), `flagged_turns` (JSON list), `max_score`, `n_flagged_turns`. ## Note This is a partial scan (~12% of WildChat). Dataset will be updated as the scan completes.
提供机构:
danielfein
搜集汇总
数据集介绍
main_image_url
构建方式
在心理健康与人工智能交叉领域,WildDelusion数据集通过系统化方法构建而成。其核心数据来源于WildChat-4.8M-Full对话语料库,利用一种基于差分均值的线性探测模型,自动识别并标记用户端可能蕴含妄想倾向的高风险消息。构建过程中,通过哈希查找技术对原始索引进行了校正,确保了数据与源语料库的准确对应,形成了包含多个配置版本的结构化集合,如delusion_conversations_v1等,每个配置均围绕被标记的对话及其元数据展开。
特点
该数据集在内容与结构上展现出显著特点。其覆盖了丰富的对话实例,例如delusion_conversations_v1配置包含6805条至少含有一条被标记用户消息的对话,并提供了完整的对话序列、角色信息及内容。数据特征设计精细,不仅包含对话哈希、原始与校正索引,还整合了探测分数、激活消息列表、最高分记录以及多维度标签元数据,支持对妄想内容进行量化分析与溯源。多配置架构允许研究者从不同粒度探索模型生成与人工验证的对比,增强了数据集的灵活性与深度。
使用方法
针对心理健康与文本分类研究,WildDelusion数据集提供了明确的应用路径。研究者可加载特定配置,如delusion_conversations_v1,直接访问校正后的对话数据及其标记信息,用于训练或评估妄想检测模型。通过分析activated_messages中的探测分数与文本,能够深入理解线性探测模型的行为模式;结合verified配置中的人工验证记录,可进行模型输出与真实标注的对比验证。该数据集支持基于对话哈希的跨配置关联,便于开展多模型生成分析、毒性评估或跨语言比较等实证研究。
背景与挑战
背景概述
随着大型语言模型在心理健康领域的应用日益广泛,其潜在风险如生成或强化妄想内容逐渐引起学界关注。WildDelusion数据集应运而生,旨在系统性地探测和标注用户对话中的妄想倾向。该数据集由研究团队基于WildChat-4.8M-Full构建,通过训练差分均值线性探针识别用户认可的妄想内容,并利用哈希查找校正原始索引,从而为模型安全性评估提供关键数据支撑。其核心研究问题聚焦于如何量化对话中的妄想表达,并为后续的模型对齐与干预策略奠定实证基础。
当前挑战
WildDelusion数据集致力于解决对话系统中妄想内容检测的挑战,其难点在于妄想作为一种复杂心理现象,在自然语言中表现微妙且语境依赖性强,传统分类方法难以精准捕捉。构建过程中的挑战则体现在数据标注的可靠性上:依赖线性探针自动标注可能引入偏差,而跨模型生成内容的异构性(如GPT、Llama等不同架构的输出)增加了数据一致性维护的难度。此外,从海量对话中校正行索引需确保哈希映射的完整性,这对数据集的准确性与可复现性提出了较高要求。
常用场景
经典使用场景
在心理健康与人工智能交叉领域,WildDelusion数据集为研究对话系统中用户端妄想内容的探测提供了关键资源。该数据集通过从大规模对话语料WildChat中筛选出高探测分数的消息,构建了包含妄想倾向文本的对话集合。研究者利用这些标注数据,能够训练和评估线性探针等模型,以识别用户对话中可能存在的非理性或脱离现实的思维模式,从而深化对语言模型在心理健康语境下行为模式的理解。
解决学术问题
WildDelusion数据集直接应对了自然语言处理中一个新兴且棘手的挑战:如何自动检测对话中的妄想内容。它通过提供经过探针标注的对话实例,为开发稳健的妄想检测算法奠定了数据基础。这不仅有助于量化大型语言模型生成或响应用户妄想内容的倾向,还为探索模型内部表征与特定心理状态之间的关联提供了实证途径,推动了可解释人工智能在敏感领域的发展。
衍生相关工作
围绕WildDelusion数据集,已催生了一系列聚焦于模型安全性与对齐的研究。经典工作包括利用其探针分数作为监督信号,微调语言模型以减少对妄想内容的生成;以及将其作为基准,评估不同模型架构在识别微妙心理状态信号方面的能力。这些研究进一步拓展了数据集的使用边界,例如探索妄想检测与毒性内容过滤的协同机制,为构建多层次的内容安全框架提供了方法论借鉴。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作