five

Multilingual-Therapy-Dialogues

收藏
Hugging Face2025-06-12 更新2025-06-13 收录
下载链接:
https://huggingface.co/datasets/Algorithmic-Human-Development-Group/Multilingual-Therapy-Dialogues
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含波斯语和英语对话的多样化和双语数据集,由患者和治疗师之间的配对对话组成。数据集包含了7179个样本,每个样本包括患者的原始英文文本、治疗师的原始英文文本、患者的波斯语翻译文本和治疗师的波斯语翻译文本。
创建时间:
2025-05-29
搜集汇总
数据集介绍
main_image_url
构建方式
在心理治疗对话研究领域,多语言数据的稀缺性促使本研究构建了双语治疗对话数据集。该数据集通过整合来自Mental Health Counseling Conversations、Mental Health CSV Dataset及Mental Health Conversational Data等公开资源的原始英文对话,并辅以人工筛选的补充材料,确保数据源的多样性与真实性。随后采用Meta AI的SeamlessM4T模型进行波斯语翻译,并经过GPT-4o的三轮优化:首轮调整情感表达使其更贴近真实治疗场景,次轮提升语言流畅度与自然性,末轮修正细微误差以保证翻译一致性。最终通过内容筛选保留具有临床意义的对话对,形成共计7,179条样本的高质量语料。
使用方法
研究者可通过两种途径获取该数据集:手动访问HuggingFace仓库下载SAT_dataset.csv文件,或使用huggingface_hub库进行编程式获取。程序化调用时需指定仓库ID为Algorithmic-Human-Development-Group/Multilingual-Therapy-Dialogues,文件名称为SAT_dataset.csv。加载后的数据以Pandas DataFrame格式呈现,包含四列结构化对话数据,可直接用于自然语言处理模型的训练与评估。该数据集特别适用于跨语言心理对话生成、机器翻译优化、情感支持系统开发等研究方向,使用时需注意遵循MIT许可协议并引用相关研究成果。
背景与挑战
背景概述
随着全球心理健康服务需求的日益增长,跨语言心理治疗对话资源的稀缺性成为制约服务可及性的关键因素。Multilingual-Therapy-Dialogues数据集由Algorithmic-Human-Development-Group团队于当代构建,旨在通过提供高质量的波斯语-英语双语治疗对话数据,支持跨文化心理健康辅助系统的开发。该数据集聚焦于自然语言处理在心理治疗领域的应用,通过模拟真实医患互动场景,为情感支持对话生成、跨语言咨询机器人训练等研究方向提供核心语料支撑,对促进心理健康服务的智能化与国际化具有重要意义。
当前挑战
该数据集致力于解决心理治疗对话系统面临的多语言情感语义对齐难题,尤其在波斯语这类资源稀缺语言中,需克服文化特异性表达与治疗术语的精准转换挑战。构建过程中,团队需从异构公开源整合原始对话,并利用SeamlessM4T模型进行跨语言转换,后续通过三重GPT-4o迭代修正以提升翻译的自然度与情感一致性。此外,需严格过滤无意义内容,确保对话在保持临床相关性的同时符合伦理规范,这一流程对计算资源与语言学专业知识提出了较高要求。
常用场景
经典使用场景
在心理治疗对话生成领域,Multilingual-Therapy-Dialogues数据集为研究者提供了跨语言对话建模的宝贵资源。该数据集通过精心构建的英波双语治疗对话,支持对话系统在心理辅导场景中的响应生成研究,特别是在跨文化心理援助场景中,系统能够基于患者的表述生成具有共情能力的治疗师回应。
解决学术问题
该数据集有效解决了心理治疗对话系统中低资源语言数据匮乏的学术难题,为跨语言自然语言处理研究提供了标准基准。通过提供高质量的双语平行语料,它支持研究者探索心理治疗对话的跨语言迁移机制,促进多语言情感计算模型的发展,对推进全球化数字心理健康服务具有重要意义。
实际应用
在实际应用层面,该数据集为开发多语言心理健康聊天机器人提供了核心训练数据。基于这些真实治疗对话构建的系统能够为波斯语和英语使用者提供即时心理支持,特别适用于难民社区、跨国企业员工援助计划等多元文化环境,有效缓解全球心理健康服务资源分布不均的问题。
数据集最近研究
最新研究方向
在跨语言心理健康对话研究领域,Multilingual-Therapy-Dialogues数据集正推动多模态情感计算与低资源语言心理干预的融合创新。研究者们借助该双语语料探索跨文化心理治疗对话的语义对齐机制,结合大语言模型进行情感支持响应的生成优化,特别是在波斯语等资源稀缺语言的心理咨询场景中突破技术瓶颈。该数据集为构建文化敏感的对话系统提供了重要基础,近期相关研究已延伸至危机干预自动化和治疗依从性预测等前沿方向,对全球数字心理健康服务的公平性提升具有显著意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作