KokoroChat
收藏arXiv2025-06-02 更新2025-06-05 收录
下载链接:
https://github.com/UEC-InabaLab/KokoroChat
下载链接
链接失效反馈官方服务:
资源简介:
KokoroChat是一个包含6589个长篇对话的日本心理咨询服务对话数据集,每个对话都附带全面的客户反馈。该数据集是通过训练有素的辅导员进行角色扮演模拟咨询者与客户之间的互动收集的,确保了对话的高质量并减轻了隐私风险。KokoroChat是目前已知最大的手动收集的心理咨询服务对话数据集,其对话长度与真实咨询服务会话相似,每个对话平均有91.2个发言。该数据集旨在促进心理咨询服务对话系统的发展,并可用于跨文化研究。
提供机构:
电通大学, Rapport Technologies, Inc., iDEAR Human Support Service, 日本心理健康与教育机构
创建时间:
2025-06-02
原始信息汇总
KokoroChat: 日本心理咨询对话数据集概述
数据集简介
- 名称: KokoroChat
- 性质: 日本最大的心理咨询对话数据集(截至2025年6月)
- 创建方式: 通过训练有素的心理咨询师角色扮演收集
- 应用领域: 共情回应生成、对话评估、心理健康导向的语言模型研究
- 学术认可: 已被ACL 2025主会议接受
核心特征
- 对话规模: 6,589个对话(2020-2024年收集)
- 对话深度: 平均每个对话包含91.2个话语
- 参与者: 480名训练有素的心理咨询师模拟在线文本咨询
- 反馈机制: 每个会话包含20维Likert量表客户反馈
- 话题覆盖: 心理健康、学校、家庭、职场、恋爱问题等
数据统计
| 类别 | 总计 | 咨询师 | 客户 |
|---|---|---|---|
| 对话数量 | 6,589 | - | - |
| 说话者数量 | 480 | 424 | 463 |
| 话语总数 | 600,939 | 306,495 | 294,444 |
| 平均话语数/对话 | 91.20 | 46.52 | 44.69 |
| 平均长度/话语 | 28.39 | 35.84 | 20.63 |
数据结构
- 内容组成:
- 完整咨询对话(含角色标签和时间戳)
- 20维结构化客户反馈(0-5 Likert量表)
- 伦理关注标志(可选)
- GPT-4o-mini自动标注的主题标签
- 存储位置:
kokorochat_dialogues文件夹
模型资源
基于Llama-3.1-Swallow-8B-Instruct-v0.3微调的三种咨询对话模型:
- Llama-3.1-KokoroChat-Low: 使用3,870个反馈分数<70的对话微调
- Llama-3.1-KokoroChat-High: 使用2,601个反馈分数70-98的对话微调
- Llama-3.1-KokoroChat-Full: 使用6,471个反馈分数≤98的对话微调
访问方式
- Hugging Face数据集: https://huggingface.co/datasets/UEC-InabaLab/KokoroChat
- 模型仓库:
- https://huggingface.co/UEC-InabaLab/Llama-3.1-KokoroChat-Low
- https://huggingface.co/UEC-InabaLab/Llama-3.1-KokoroChat-High
- https://huggingface.co/UEC-InabaLab/Llama-3.1-KokoroChat-Full
引用规范
bibtex @inproceedings{qi2025kokorochat, title = {KokoroChat: A Japanese Psychological Counseling Dialogue Dataset Collected via Role-Playing by Trained Counselors}, author = {Zhiyang Qi and Takumasa Kaneko and Keiko Takamizo and Mariko Ukiyo and Michimasa Inaba}, booktitle = {Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics}, year = {2025}, url = {https://github.com/UEC-InabaLab/KokoroChat} }
许可协议
- 类型: Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0)
- 链接: https://creativecommons.org/licenses/by-nc-nd/4.0/
搜集汇总
数据集介绍

构建方式
KokoroChat数据集通过角色扮演的方式构建,由经过专业培训的心理咨询师模拟咨询师与来访者的对话。数据收集过程中,咨询师和来访者角色均由具备专业背景的参与者扮演,确保了对话的专业性和真实性。每个对话平均持续约一小时,并附有详细的来访者反馈,包括20个评估维度的评分,最大总分为100分。
特点
KokoroChat是目前最大的人工收集的心理咨询对话数据集,包含6,589个长对话,平均每个对话有91.2个话语。数据集覆盖了广泛的咨询主题,如家庭问题、职场问题和心理健康问题等。每个对话都附有来访者的详细反馈,为心理咨询对话的质量评估提供了丰富的数据支持。此外,数据集的语言为日语,为跨文化心理咨询研究提供了重要资源。
使用方法
KokoroChat数据集可用于训练和评估心理咨询对话生成模型。研究人员可以通过微调开源大型语言模型(如Llama 3.1 Swallow)来提升模型在心理咨询任务中的表现。此外,数据集中的来访者反馈可用于训练对话评估模型,自动评估心理咨询对话的质量。使用该数据集时,建议对数据进行预处理,如合并连续的话语,并利用其丰富的评估维度进行多方面的模型优化。
背景与挑战
背景概述
KokoroChat是由日本电气通信大学、Rapport Technologies等机构的研究团队于2025年6月发布的心理咨询对话数据集。该数据集采用角色扮演方法,由受过专业训练的咨询师模拟真实咨询场景,包含6,589段长文本对话及详尽的客户反馈。作为当前最大规模的人工构建心理咨询数据集,其平均对话轮次达91.2轮,填补了日语心理咨询数据资源的空白。该研究针对全球心理健康资源短缺的现实问题,旨在为基于语言模型的情感支持系统提供高质量训练数据,推动跨文化心理健康服务的技术发展。
当前挑战
该数据集主要面临三方面挑战:在领域问题上,需解决心理咨询对话特有的高专业性要求与低资源语言数据稀缺的双重困境;在构建过程中,需平衡对话真实性(避免LLM生成数据的同质化)与隐私伦理风险(规避真实咨询数据采集);在数据质量管控方面,要求参与者完成10小时专业培训以确保对话质量,同时设计20维度的精细化评估体系量化咨询效果。此外,文化特异性使得日语敬语体系与心理支持表达的适配成为独特挑战。
常用场景
经典使用场景
在心理对话生成领域,KokoroChat数据集通过专业咨询师的角色扮演模拟真实咨询场景,为语言模型提供了高质量的日文心理咨询对话样本。其典型应用场景包括训练对话系统生成具有专业共情能力的回应,特别是在处理家庭关系、职场压力等常见心理议题时,该数据集的长对话结构(平均91.2轮次)能有效模拟真实咨询的深度互动过程。
衍生相关工作
该数据集催生了多个衍生研究:InabaLab开发的CounselLAMA框架利用其反馈机制构建了对话质量评估模型;东京大学团队则基于对话策略分析提出‘阶段性回应生成’方法。这些工作显著推进了心理对话系统在专业度量化、文化适应性等方面的研究进展。
数据集最近研究
最新研究方向
近年来,KokoroChat数据集在心理辅导对话生成领域引起了广泛关注。该数据集通过专业心理咨询师的角色扮演方式构建,确保了对话的高质量和真实性,同时规避了隐私和伦理风险。前沿研究方向主要集中在利用该数据集优化开源大语言模型(LLMs)的心理辅导响应生成能力,以及开发基于客户反馈的对话自动评估模型。KokoroChat的独特之处在于其规模(6,589个长对话)和深度(平均每对话91.2条语句),为跨文化心理辅导研究提供了重要资源。热点应用包括开发多语言心理辅导聊天机器人,以及探索对话策略对辅导效果的影响。该数据集填补了日语心理辅导数据的空白,对提升模型在多元文化背景下的适应性具有重要意义。
相关研究论文
- 1KokoroChat: A Japanese Psychological Counseling Dialogue Dataset Collected via Role-Playing by Trained Counselors电通大学, Rapport Technologies, Inc., iDEAR Human Support Service, 日本心理健康与教育机构 · 2025年
以上内容由遇见数据集搜集并总结生成



