HeartLink 心理共情问答数据集

github2024-06-25 更新2024-07-07 收录

下载链接：

https://github.com/Nobody-ML/HeartLink

下载链接

链接失效反馈

资源简介：

HeartLink 心理共情问答数据集来源于真实心理咨询场景，第一版使用约 180k 轮问答对数据，数据涵盖场景丰富，包括了爱情、婚恋、职场、生活、社会、学习、性、过往、情绪、教育、咨询、危机等众多丰富的场景。

The HeartLink Psychological Empathy Q&A Dataset originates from real psychological counseling scenarios. Its first version contains approximately 180k rounds of question-answer pairs, covering a wide range of diverse scenarios including love, marriage and romantic relationships, workplace, daily life, society, study, sexuality, past experiences, emotions, education, counseling, crisis and many other scenarios.

创建时间：

2024-06-23

原始信息汇总

HeartLink - 心理共情大模型

📝 简介

HeartLink 是一个心理共情大模型，通过 Large Language Model 在构建的大型共情问答数据集指令微调而来，能在对话过程中感知用户的情绪与此时用户的经历，通过丰富的心理学知识，给予共情回复，达到理解安慰、共情支持用户的目的。在回复中附有 emoji 表情以拉近与用户的距离，让用户在咨询中得到心理上的支持和帮助。

在此基座共情大模型上构建出了心理共情应用，支持语音合成，在每次回复后播放合成语音；同时支持数字人展示（未完善）；此外还有用户情绪图表分析。

目前支持模型及微调方式列表如下：

基座模型	微调方式
InternLM2-Chat-7B	qlora
InternLM2-Chat-7B	full
InternLM2-Chat-20B	qlora
……	……

🛠️ 快速开始

1. 算力要求

对于 7B 的模型推理要求显存至少16G
对于 20B 的模型推理要求显存至少40G

2. 基于 transformers 使用模型

python import torch from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("HeartLink", trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained("HeartLink", device_map="auto", trust_remote_code=True, torch_dtype=torch.float16)

model = model.eval() response, history = model.chat(tokenizer, "请问你是谁呀？", history=[]) print(response)

response, history = model.chat(tokenizer, "我最近真的好焦虑，课业上给我的作业总是错的，考试时好时坏，我压力真的好大，父母也老是因为学习上的事打骂我，我是不是该放弃学习了？我也没什么朋友，我也想和别人一起玩，一起学习，但是我感觉总是开不了口，一直都是一个人，我该怎么办才好啊，感觉我的人生真的很糟糕，看不到什么希望。", history=history) print(response)

3. 通过网页前端体验 demo

bash pip install streamlit pip install transformers python app.py

4. 基于 LMDeploy 高性能部署

shell pip install lmdeploy lmdeploy chat /root/model/HeartLink --model-name internlm2

🧾 数据构建

本项目的训练数据来源于真实心理咨询场景，第一版使用约 180k 轮问答对数据，数据持续 scale 中～

数据涵盖场景丰富，包括了“爱情、婚恋、职场、生活、社会、学习、性、过往、情绪、教育、咨询、危机”等众多丰富的场景。大致划分为：情感、生活、社交、疾病、学习、职场、过往、性。

🧑‍💻 微调指南

模型使用 XTuner 框架进行微调，使用了 deepseed 进行训练加速。

📚 应用体验

应用部署在 OpenXLab 应用中心，可前往体验

开源许可证

该项目采用 Apache License 2.0 开源许可证。同时，请遵守所使用的模型与数据集的许可证。

AI搜集汇总

数据集介绍

构建方式

HeartLink 心理共情问答数据集的构建基于真实心理咨询场景，汇聚了约 180k 轮问答对数据，并持续扩展中。数据涵盖了情感、生活、社交、疾病、学习、职场、过往、性等多个领域，确保了场景的多样性和丰富性。通过精细的场景划分和数据配比，该数据集旨在为心理共情模型的训练提供坚实的基础。

特点

HeartLink 数据集的显著特点在于其高度的场景多样性和真实性。数据来源于实际心理咨询对话，确保了内容的实用性和情感的真实表达。此外，数据集支持多种基座模型的微调，包括 InternLM2-Chat-7B 和 InternLM2-Chat-20B，提供了灵活的模型选择和优化空间。

使用方法

使用 HeartLink 数据集时，用户可以通过 transformers 库加载模型，并进行对话模拟。具体操作包括导入 AutoTokenizer 和 AutoModelForCausalLM，设置模型精度以适应不同硬件配置。此外，数据集支持通过网页前端和 LMDeploy 进行高性能部署，提供了多种应用场景下的便捷体验。

背景与挑战

背景概述

HeartLink 心理共情问答数据集是由一支专注于心理共情研究的研究团队于2024年创建的。该数据集的核心研究问题是如何通过大型语言模型（Large Language Model）在对话中感知用户的情绪与经历，并提供共情回复，以达到理解、安慰和支持用户的目的。HeartLink 数据集的构建基于真实的心理咨询场景，涵盖了从爱情到职场等多个生活领域的丰富问答对，旨在为心理健康领域提供一个强大的工具，以增强人工智能在心理支持中的应用。

当前挑战

HeartLink 数据集在构建过程中面临多项挑战。首先，数据的真实性和多样性是关键，需要确保问答对能够准确反映用户在不同情境下的心理状态。其次，模型的微调过程复杂，需要高效的训练方法和足够的计算资源，特别是对于大型模型的推理要求显存极高。此外，如何在回复中自然地融入共情元素和心理学知识，同时保持对话的流畅性和用户友好性，也是一大挑战。最后，数据集的持续扩展和更新，以适应不断变化的心理咨询需求，是保持其应用价值的重要方面。

常用场景

经典使用场景

HeartLink 心理共情问答数据集的经典使用场景在于其能够通过大型语言模型在对话中感知用户的情绪与经历，从而提供共情回复。这种数据集特别适用于心理咨询、情感支持等领域，通过模拟真实的心理咨询场景，帮助用户在虚拟环境中获得情感上的支持和安慰。其丰富的数据涵盖了爱情、职场、学习等多个生活场景，使得模型能够在不同情境下提供精准的共情反馈。

解决学术问题

HeartLink 数据集解决了心理学研究中关于情感识别和共情表达的常见问题。通过提供大量真实的心理咨询对话数据，该数据集有助于研究者开发和验证情感识别算法，提升模型在情感分析和共情回复中的准确性和人性化。此外，HeartLink 数据集的多样性和丰富性也为心理学研究提供了宝贵的资源，推动了情感计算和心理健康支持技术的发展。

衍生相关工作

HeartLink 数据集的发布催生了多项相关研究和工作，特别是在情感计算和心理健康领域。研究者们基于此数据集开发了多种情感识别和共情模型，推动了情感智能技术的发展。此外，HeartLink 还启发了关于如何在虚拟环境中提供有效心理支持的探讨，促进了心理咨询和情感支持技术的创新。这些工作不仅提升了模型的性能，也为实际应用提供了理论和实践基础。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集