HamRaz

Name: HamRaz
Creator: 伊朗科技大学计算机工程系, 吉兰大学计算机工程系
Published: 2025-02-10 02:23:34
License: 暂无描述

arXiv2025-02-10 更新2025-02-26 收录

下载链接：

http://arxiv.org/abs/2502.05982v1

下载链接

链接失效反馈

官方服务：

资源简介：

HamRaz是一个为波斯语人-centered治疗（PCT）设计的心理健康数据集，由伊朗科技大学计算机工程系和吉兰大学计算机工程系共同创建。该数据集结合了基于脚本的对话和大型语言模型（LLM）的角色扮演，以实现连贯和动态的治疗交互。数据集包含4000个用户提交的心理健康相关问题，涵盖了从焦虑障碍到存在性关切等多种心理健康主题，旨在为AI驱动的心理治疗研究提供文化适应性和LLM驱动的资源。

HamRaz is a mental health dataset developed for Persian-speaking person-centered therapy (PCT), jointly created by the Department of Computer Engineering at Iran University of Science and Technology and the Department of Computer Engineering at University of Gilan. This dataset integrates script-based dialogues and large language model (LLM)-powered role-playing to enable coherent and dynamic therapeutic interactions. It contains 4,000 user-submitted mental health-related questions, covering a diverse range of mental health topics spanning from anxiety disorders to existential concerns. The dataset aims to provide culturally adaptive and LLM-driven resources for AI-driven psychotherapy research.

提供机构：

伊朗科技大学计算机工程系, 吉兰大学计算机工程系

创建时间：

2025-02-10

搜集汇总

数据集介绍

构建方式

HamRaz数据集的构建方式独具匠心，旨在填补波斯语心理健康数据集的空白。研究者采用网络爬虫技术，从伊朗心理学相关网站和论坛收集了4000个用户提交的心理健康问题，这些问题覆盖了广泛的心理健康议题。为了确保数据集的文化相关性和适用性，研究者使用GPT-4o模型对问题进行分类和筛选，确保它们与以人为中心的治疗（PCT）原则相符。此外，为了模拟现实世界的治疗挑战，研究者通过修改部分用户资料，使他们的陈述变得模糊、间接或冲突，从而增加了数据集的复杂性。

特点

HamRaz数据集的特点在于其文化适应性和真实性。它包含复杂且模糊的客户陈述，更好地反映了现实世界的治疗挑战，并提高了人工智能驱动的心理健康互动的真实性。此外，HamRazEval评估框架的引入，通过通用对话指标和Barrett-Lennard关系库存（BLRI）来衡量对话质量和治疗效果，确保了数据集的有效性和实用性。实验结果表明，HamRaz在对话质量和治疗效果方面优于传统的脚本模式和双代理模式，产生了更具同理心、情境感知和现实的治疗会话。

使用方法

使用HamRaz数据集的方法包括以下步骤：首先，利用网络爬虫技术收集用户提交的心理健康问题；其次，使用GPT-4o模型对问题进行分类和筛选，确保它们与PCT原则相符；然后，对用户资料进行修改，增加数据集的复杂性；接着，使用GPT-4o模型分析用户资料，生成结构化的客户配置文件；最后，根据PCT的五阶段治疗框架，使用预定义的脚本和LLM角色扮演，模拟真实的治疗对话。用户可以通过HamRazEval评估框架，对生成的对话质量和治疗效果进行评估。

背景与挑战

背景概述

在人工智能驱动的心理咨询服务领域，大型语言模型（LLM）的应用日益广泛，尤其在模拟咨询师与客户的互动方面表现出显著潜力。然而，现有数据集大多集中在西方和东亚语境，忽略了文化差异和语言细微之处对有效心理治疗的重要性。为了填补这一空白，HamRaz数据集应运而生，这是一个专为波斯语心理治疗设计的全新数据集，旨在利用LLM进行以人为本的心理治疗（PCT）。该数据集结合了基于脚本的对话和自适应的LLM角色扮演，以确保治疗互动的连贯性和动态性。此外，HamRazEval评估框架的引入，通过通用对话指标和Barrett-Lennard关系库存（BLRI）来衡量对话质量和治疗有效性，进一步提升了数据集的价值。HamRaz的发布为AI驱动的心理治疗研究提供了文化适应性强的LLM驱动资源，有助于推进不同社区的心理治疗研究。

当前挑战

HamRaz数据集面临着一些挑战。首先，尽管LLM在心理治疗领域展现出巨大潜力，但它们在诊断和个性化干预方面仍然缺乏临床专业知识。其次，现有的数据集往往简化了客户的表现，未能反映真实治疗过程中客户的复杂性和不确定性。此外，现有的数据集和方法在生成治疗对话时，往往无法达到足够的现实性和复杂性。为了解决这些问题，HamRaz数据集采用了混合对话生成方法，结合了基于脚本的生成和LLM角色扮演，以提高治疗对话的连贯性、动态性和真实性。同时，数据集还包含了复杂和模棱两可的客户陈述，更好地反映了真实世界的治疗挑战，并提高了AI驱动心理健康互动的真实性。

常用场景

经典使用场景

HamRaz数据集主要用于模拟以人本为中心的治疗（PCT）的会话场景，特别是针对波斯语用户的心理治疗。通过结合基于脚本的对话和大型语言模型（LLM）的角色扮演，HamRaz确保了连贯和动态的治疗互动，为非英语使用者提供了文化上适应的治疗数据集。该数据集还包括复杂和模棱两可的客户陈述，更好地反映了现实世界的治疗挑战，并提高了人工智能驱动的心理健康互动的真实性。

解决学术问题

HamRaz数据集解决了现有数据集主要针对西方和东亚语境，忽视了波斯语用户的文化和语言细微差别的问题。它通过引入HamRazEval评估框架，使用通用对话指标和Barrett-Lennard关系清单（BLRI）来衡量对话质量和治疗效果，证明了HamRaz在产生更具同理心、情境感知和现实的治疗会话方面的优越性。这对于推动人工智能驱动的心理治疗研究在多样化社区中的发展具有重要意义。

衍生相关工作

HamRaz数据集的发布为相关研究提供了新的方向。它促进了人工智能在心理治疗中的应用，特别是对于非英语使用者。此外，HamRaz数据集的发布还鼓励了更多针对特定语言和文化背景的心理健康数据集的开发，以提供更全面和多样化的心理健康支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集