maliksaad/empathLM-dataset-v2
收藏Hugging Face2026-03-28 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/maliksaad/empathLM-dataset-v2
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
task_categories:
- text-generation
- conversational
language:
- en
tags:
- mental-health
- empathy
- motivational-interviewing
- cognitive-behavioral-therapy
- psychology
- fine-tuning
- emotional-support
- empathLM
pretty_name: EmpathLM — Psychologically Safe & Persuasive Response Dataset
size_categories:
- n<1K
---
# 🧠 EmpathLM Dataset V2
**Psychologically Safe AND Persuasive AI Responses + Identity-Aware Meta Conversations**
Created by [Muhammad Saad](https://huggingface.co/maliksaad) as part of the **EmpathLM** project --
a fine-tuned language model that combines Motivational Interviewing (MI) and Cognitive Behavioral Therapy (CBT)
principles with smart intent detection.
---
## 📖 What This Dataset Is
This dataset contains **760 curated examples** -- 700 emotional support examples and 60 meta conversation examples
(identity, greeting, closing, capability, clarification). Each emotional support example demonstrates the critical
difference between how typical AI systems respond versus how a psychologically-informed system *should* respond.
**No existing HuggingFace model is trained specifically for this task.** This dataset was created to fill that gap.
---
## 📦 Dataset Fields
| Field | Type | Description |
|-------|------|-------------|
| `situation` | `string` | First-person message expressing emotional distress or meta question |
| `unsafe_response` | `string` | How a typical AI responds (empty for meta conversations) |
| `empathetic_response` | `string` | The gold-standard response |
| `psychology_principle` | `string` | The specific MI/CBT technique or 'Identity Awareness' for meta |
| `safety_score` | `int` | Psychological safety rating (1-10) |
| `persuasion_score` | `int` | Effectiveness of perspective shift (1-10) |
| `category` | `string` | 'emotional_support' or 'meta_conversation' |
---
## 🧪 Psychology Principles Covered
The dataset spans the following evidence-based psychological techniques:
- **Reflective Listening** — Mirroring and paraphrasing to show understanding
- **Socratic Questioning** — Open questions that guide self-discovery
- **Cognitive Reframing** — Gently suggesting alternative interpretations
- **Validation and Normalization** — Affirming that feelings are understandable
- **Motivational Affirmation** — Highlighting the person's strengths and efforts
- **Exploring Ambivalence** — Helping the person examine conflicting feelings
- **Strength-Based Reflection** — Redirecting focus to resilience and capability
---
## 🌍 Situation Categories
The 700 emotional support situations cover diverse human struggles:
- Academic failure and exam pressure
- Job rejection and career disappointment
- Family pressure and cultural expectations
- Loneliness and social isolation
- Relationship loss and heartbreak
- Identity crisis and self-doubt
- Anxiety and overwhelming fear
- Feeling invisible and unheard
- Creative dreams being dismissed
- Feeling like a burden
- Financial stress, grief, burnout, and more
---
## 🚀 How to Use
```python
from datasets import load_dataset
dataset = load_dataset("maliksaad/empathLM-dataset-v2")
# View example
example = dataset["train"][0]
print("Situation:", example["situation"])
print("\nEmpathetic Response:", example["empathetic_response"])
print("\nPrinciple:", example["psychology_principle"])
```
### Fine-tuning Format
For instruction fine-tuning, format examples as:
```python
SYSTEM_PROMPT = """You are EmpathLM — an emotionally intelligent AI trained in Motivational Interviewing
and Cognitive Behavioral Therapy. When someone shares emotional pain with you:
- Validate their feelings without judgment
- Reflect their emotions back to them
- Help them gently explore their perspective
- Ask one powerful open-ended question
- NEVER give unsolicited advice or tell them what to do
Respond as a warm, deeply human presence."""
def format_example(example):
return {
"messages": [
{"role": "system", "content": SYSTEM_PROMPT},
{"role": "user", "content": example["situation"]},
{"role": "assistant", "content": example["empathetic_response"]},
]
}
```
---
## 📊 Related Resources
- **Model**: [maliksaad/empathLM-v2](https://huggingface.co/maliksaad/empathLM-v2)
- **GitHub**: [EmpathLM Repository](https://github.com/maliksaad/empathLM)
---
## 📄 Citation
```bibtex
@dataset{saad2025empathLM,
title = {EmpathLM: Psychologically Safe and Persuasive Response Dataset},
author = {Muhammad Saad},
year = {2025},
publisher = {HuggingFace},
url = {https://huggingface.co/datasets/maliksaad/empathLM-dataset-v2}
}
```
---
## ⚖️ License
MIT License — free to use for research and commercial applications with attribution.
---
license: MIT协议
task_categories:
- 文本生成
- 对话式任务
language:
- 英语
tags:
- 心理健康
- 共情
- 动机性访谈(MI)
- 认知行为疗法(CBT)
- 心理学
- 微调
- 情绪支持
- EmpathLM(EmpathLM)
pretty_name: EmpathLM(EmpathLM) — 心理安全且具有说服力的响应数据集
size_categories:
- 样本量小于1000
---
# 🧠 EmpathLM(EmpathLM) 数据集V2
**心理安全且具有说服力的AI响应 + 身份感知元对话**
由[Muhammad Saad](https://huggingface.co/maliksaad)基于**EmpathLM(EmpathLM)**项目开发——这是一款结合了动机性访谈(MI)与认知行为疗法(CBT)原理,搭载智能意图检测模块的微调大语言模型。
---
## 📖 本数据集概述
本数据集包含**760条精选样本**:700条情绪支持样本与60条元对话样本(涵盖身份、问候、结束语、功能说明与澄清请求)。每条情绪支持样本均清晰对比了通用AI系统的常规响应,与符合心理学规范的理想响应之间的核心差异。
**目前尚无HuggingFace平台上的模型针对该任务进行专项训练**,本数据集正是为填补这一空白而创建。
---
## 📦 数据集字段说明
| 字段名 | 数据类型 | 描述 |
|-------|---------|------|
| `situation` | `string` | 表达情绪困扰的第一人称消息,或元对话类问题 |
| `unsafe_response` | `string` | 通用AI的常规响应(元对话样本此字段为空) |
| `empathetic_response` | `string` | 金标准响应(即符合心理学规范的共情响应) |
| `psychology_principle` | `string` | 具体采用的MI/CBT技术,元对话样本则标注“身份感知” |
| `safety_score` | `int` | 心理安全评分(1-10分) |
| `persuasion_score` | `int` | 视角转换有效性评分(1-10分) |
| `category` | `string` | 分类为`emotional_support`(情绪支持)或`meta_conversation`(元对话) |
---
## 🧪 覆盖的心理学原理
本数据集涵盖以下循证心理学技术:
- **反射性倾听**:通过镜像与复述展现理解
- **苏格拉底式提问**:通过开放式问题引导自我探索
- **认知重构**:温和地引导个体形成替代性解读
- **验证与正常化**:肯定个体情绪的合理性与普遍性
- **动机性肯定**:强调个体的优势与付出
- **探索矛盾心理**:帮助个体梳理内心的冲突情绪
- **优势导向反思**:将注意力引导至韧性与能力层面
---
## 🌍 情绪支持场景分类
700条情绪支持样本覆盖了多样化的人类困境:
- 学业失败与考试压力
- 求职碰壁与职业挫败
- 家庭压力与文化期待
- 孤独与社交隔离
- 情感关系破裂与心碎
- 身份认同危机与自我怀疑
- 焦虑与过度恐惧
- 被忽视与不被倾听
- 创意梦想遭否定
- 感觉自己是他人的负担
- 财务压力、哀伤、职业倦怠等更多场景
---
## 🚀 使用方法
python
from datasets import load_dataset
dataset = load_dataset("maliksaad/empathLM-dataset-v2")
# 查看示例样本
example = dataset["train"][0]
print("场景:", example["situation"])
print("
共情响应:", example["empathetic_response"])
print("
应用原理:", example["psychology_principle"])
### 微调格式说明
若用于指令微调,可将样本格式化为如下形式:
python
SYSTEM_PROMPT = """你是EmpathLM(EmpathLM)——一款具备情绪智能的AI,接受过动机性访谈与认知行为疗法训练。当他人向你倾诉情绪痛苦时:
- 不带评判地验证其感受
- 向对方复述其情绪以展现理解
- 温和地协助其探索自身视角
- 提出一个有力的开放式问题
- 切勿提供未经请求的建议或强行告知应对方案
请以温暖、极具人情味的姿态进行回应。"""
def format_example(example):
return {
"messages": [
{"role": "system", "content": SYSTEM_PROMPT},
{"role": "user", "content": example["situation"]},
{"role": "assistant", "content": example["empathetic_response"]},
]
}
---
## 📊 相关资源
- **模型**:[maliksaad/empathLM-v2](https://huggingface.co/maliksaad/empathLM-v2)
- **GitHub仓库**:[EmpathLM(EmpathLM) 项目仓库](https://github.com/maliksaad/empathLM)
---
## 📄 引用格式
bibtex
@dataset{saad2025empathLM,
title = {EmpathLM: Psychologically Safe and Persuasive Response Dataset},
author = {Muhammad Saad},
year = {2025},
publisher = {HuggingFace},
url = {https://huggingface.co/datasets/maliksaad/empathLM-dataset-v2}
}
---
## ⚖️ 许可证
MIT协议——可自由用于研究与商业场景,需注明原作者出处。
提供机构:
maliksaad
搜集汇总
数据集介绍

构建方式
在心理健康与人工智能交叉领域,EmpathLM-dataset-v2数据集的构建体现了严谨的学术设计。该数据集精心策划了760个示例,其中包含700个情感支持对话与60个元对话,覆盖了学术压力、职业挫折、孤独感等多种现实情境。每个示例均通过对比典型AI的‘不安全回应’与基于心理学原则的‘共情回应’,凸显了响应方式的本质差异。构建过程严格遵循动机性访谈和认知行为疗法的证据基础,为每个回应标注了具体心理学技术、安全分数及说服力分数,确保了数据的专业性与可解释性。
特点
本数据集的显著特点在于其深度整合了临床心理学原理与自然语言处理任务。它不仅提供了高质量的对齐数据,更通过‘心理学原则’字段明确揭示了每条共情回应背后的技术依据,如反思性倾听、苏格拉底式提问等。数据集结构清晰,包含情境、回应对比、评分及类别等多维字段,支持对模型心理安全性与说服效力的量化评估。此外,其涵盖的元对话类别进一步增强了AI在身份认知、能力说明等交互维度的适应性,为构建全面、稳健的情感支持系统奠定了坚实基础。
使用方法
为有效利用该数据集,研究者可通过Hugging Face的`datasets`库直接加载,并按照指令微调格式进行模型训练。典型的使用方法涉及定义一个融合动机性访谈与认知行为疗法原则的系统提示,随后将数据示例格式化为包含系统、用户及助手角色的消息序列。这种格式便于训练模型生成既安全又具说服力的共情回应。数据集适用于微调大型语言模型,以专门提升其在情感支持对话中的表现,相关预训练模型与代码资源也已公开,为后续研究与开发提供了完整的技术栈支持。
背景与挑战
背景概述
在人工智能与心理健康交叉领域,EmpathLM-dataset-v2数据集于2025年由研究人员Muhammad Saad创建,旨在填补现有语言模型在心理安全与共情回应方面的空白。该数据集整合了动机性访谈与认知行为疗法的核心原则,通过760条精心标注的对话示例,系统化地展示了如何在情感支持场景中生成既安全又具说服力的回应。其构建不仅推动了对话系统向更具人文关怀与临床有效性的方向发展,也为后续模型微调提供了关键的数据基础,标志着AI在心理辅助应用中的一次重要演进。
当前挑战
该数据集致力于解决情感支持对话生成中的双重挑战:一是传统AI回应往往缺乏心理安全性,可能无意中加剧用户的情绪困扰;二是如何将复杂的心理学原理如认知重构、动机性肯定等,转化为可操作、可评估的文本生成任务。在构建过程中,挑战体现在高质量示例的稀缺性,需确保每条回应既符合临床心理学标准,又保持自然流畅的对话特性;同时,标注过程要求对心理干预技术有深刻理解,以准确评估回应的安全性与说服力分数,这增加了数据收集与验证的复杂度。
常用场景
经典使用场景
在心理健康与情感支持领域,EmpathLM-dataset-v2数据集为开发具有心理安全性和说服力的人工智能对话系统提供了关键训练资源。该数据集通过精心设计的700个情感支持示例和60个元对话示例,展示了如何基于动机性访谈和认知行为疗法原则,将典型AI的冷漠回应转化为富有同理心的专业响应。研究者通常利用这些标注数据,对大型语言模型进行指令微调,从而构建能够理解用户情感困境、提供有效心理支持的对话代理。
实际应用
在实际应用层面,基于该数据集训练的模型可部署于数字心理健康平台、在线社区支持系统或教育辅导工具中。它们能够为经历学业压力、职业挫折、社交孤立或身份危机的用户提供即时、可及且非评判性的初步情感支持。这类AI助手并非旨在替代专业治疗师,而是作为一种辅助资源,在用户寻求帮助的早期阶段提供倾听、情绪验证和视角引导,有助于缓解心理困扰并鼓励用户进行积极的自我探索。
衍生相关工作
围绕EmpathLM-dataset-v2,已衍生出包括同名微调模型EmpathLM-v2在内的一系列经典工作。这些工作专注于探索如何将动机性访谈与认知行为疗法的结构化原则更有效地编码进神经网络。相关研究进一步扩展至对话意图的细粒度检测、回应安全性的自动化评估,以及在不同文化语境下心理学干预原则的适应性调整。该数据集也为后续研究如何构建身份感知、具备长期对话连贯性的情感支持智能体奠定了数据基础。
以上内容由遇见数据集搜集并总结生成



