KokoroChat

github2025-06-03 更新2025-06-10 收录

下载链接：

https://github.com/UEC-InabaLab/KokoroChat

下载链接

链接失效反馈

官方服务：

资源简介：

KokoroChat是迄今为止最大的人类收集的日语心理咨询对话数据集（截至2025年6月）。它通过训练有素的咨询师之间的角色扮演创建，包含丰富的长篇对话和详细的客户对咨询质量的反馈。该数据集支持共情回应生成、对话评估和面向心理健康的语言建模研究。

KokoroChat is the largest Japanese psychological counseling dialogue dataset collected by humans to date (as of June 2025). It is created through role-playing between trained consultants, featuring extensive long-form dialogues and detailed feedback from clients on the quality of counseling. The dataset supports research on empathetic response generation, dialogue evaluation, and language modeling for mental health.

创建时间：

2025-05-22

原始信息汇总

KokoroChat: 日本心理咨询对话数据集概述

数据集简介

名称: KokoroChat
类型: 日本心理咨询对话数据集
特点: 目前最大规模的人工收集日本心理咨询对话数据集（截至2025年6月）
创建方式: 通过训练有素的心理咨询师进行角色扮演收集
用途: 支持共情回应生成、对话评估和心理健康导向的语言建模研究

关键特性

对话数量: 6,589个
收集时间: 2020年至2024年
平均每对话话语数: 91.2
咨询师数量: 480名训练有素的咨询师
反馈维度: 每个会话包含20维Likert量表客户反馈
话题覆盖: 心理健康、学校、家庭、职场、恋爱问题等

数据集统计

类别	总计	咨询师	客户
对话数量	6,589	-	-
说话者数量	480	424	463
话语总数	600,939	306,495	294,444
平均每对话话语数	91.20	46.52	44.69
平均每话语长度	28.39	35.84	20.63

数据结构

每个样本包含:

完整的咨询对话（带有角色标签和时间戳）
20维结构化客户反馈（0-5 Likert量表）
伦理问题检查标志（可选）
预测主题标签（由GPT-4o-mini自动标注）

访问方式

Hugging Face数据集: https://huggingface.co/datasets/UEC-InabaLab/KokoroChat
微调模型:
- Llama-3.1-KokoroChat-Low: 基于反馈分数<70的3,870个对话微调
- Llama-3.1-KokoroChat-High: 基于反馈分数70-98的2,601个对话微调
- Llama-3.1-KokoroChat-Full: 基于反馈分数≤98的6,471个对话微调

引用信息

bibtex @inproceedings{qi2025kokorochat, title = {KokoroChat: A Japanese Psychological Counseling Dialogue Dataset Collected via Role-Playing by Trained Counselors}, author = {Zhiyang Qi and Takumasa Kaneko and Keiko Takamizo and Mariko Ukiyo and Michimasa Inaba}, booktitle = {Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics}, year = {2025}, url = {https://github.com/UEC-InabaLab/KokoroChat} }

许可协议

许可证类型: Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0)
许可证链接: https://creativecommons.org/licenses/by-nc-nd/4.0/

搜集汇总

数据集介绍

构建方式

在心理咨询领域，高质量对话数据的稀缺性长期制约着相关研究的发展。KokoroChat数据集通过精心设计的角色扮演范式，由424名专业咨询师与463名模拟来访者展开真实场景的文本咨询对话，历时四年收集了6,589个完整咨询会话。每个对话平均包含91.2轮交互，并附有来访者对咨询质量的20维度量化评估，数据采集过程严格遵循伦理审查机制，同时采用GPT-4o-mini模型自动标注对话主题，构建起兼具专业深度与规模优势的语料库。

特点

作为当前最大规模的日语心理咨询对话数据集，KokoroChat的突出价值体现在其多维度的专业标注体系。除基础对话文本外，每个会话包含精确到秒的时间戳标记和角色身份标识，特别是来访者从共情质量、问题解决效能等20个维度对咨询效果进行的李克特量表评分，为对话质量评估提供了量化基准。数据集覆盖心理健康、职场压力、家庭关系等多元主题，咨询师平均单轮回复长度达35.84词，显著高于日常对话复杂度，充分保留了专业心理咨询的交互特性。

使用方法

研究者可通过Hugging Face平台直接加载预处理后的完整数据集，其JSON格式包含对话序列、客户反馈及伦理审查标记等结构化字段。针对不同研究需求，配套发布的三个微调模型——基于客户评分划分的Low/High/Full版本Llama-3.1模型，支持开箱即用的心理咨询响应生成实验。使用时应遵循CC BY-NC-ND 4.0许可协议，建议结合客户反馈分数开展对话质量相关性分析，或利用时间戳数据研究咨询过程中的策略演变规律。

背景与挑战

背景概述

KokoroChat是由日本UEC-InabaLab团队于2020年至2024年间构建的日语心理咨询对话数据集，作为当前最大规模的人工收集日语心理咨询对话资源，其研究成果被ACL 2025主会议收录。该数据集通过424名专业咨询师与463名模拟来访者的角色扮演对话构建，包含6,589段平均长度达91轮次的长对话，每条对话均附带20维度的来访者满意度评分。其核心价值在于为共情响应生成、对话质量评估及心理健康导向的语言模型训练提供了真实场景下的高质量数据支持，填补了日语心理对话研究领域的数据空白。

当前挑战

在解决心理咨询对话建模问题时，KokoroChat面临对话复杂性高、伦理敏感性强的双重挑战：长对话轮次带来的上下文依赖问题要求模型具备长期记忆能力；咨询场景特有的共情表达、问题重构等专业技巧对生成质量提出极高要求。数据集构建过程中，专业咨询师培训成本控制、敏感话题的伦理审查机制建立、以及20维度细粒度反馈标注体系的标准化，均是团队需要克服的关键技术难点。

常用场景

经典使用场景

在心理对话生成领域，KokoroChat数据集因其大规模日文心理咨询对话记录而成为研究焦点。该数据集通过480名专业咨询师的模拟对话构建，平均每个对话包含91.2条语句，为开发具有共情能力的对话系统提供了真实场景下的语言模式。研究者可利用其细粒度的20维度客户反馈评分，精确量化不同回应策略对咨询效果的影响。

解决学术问题

该数据集有效解决了心理对话系统中三大核心问题：长序列对话的连贯性建模、基于客户反馈的对话质量评估、以及跨文化语境下的共情表达生成。其结构化反馈机制为建立可解释的对话评估指标提供了实证基础，而专业咨询师参与构建的特点则确保了对话策略的临床合理性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集