th-nuernberg/OnCoCoV1

Name: th-nuernberg/OnCoCoV1
Creator: th-nuernberg
Published: 2026-05-08 15:16:32
License: 暂无描述

Hugging Face2026-05-08 更新2026-04-05 收录

下载链接：

https://hf-mirror.com/datasets/th-nuernberg/OnCoCoV1

下载链接

链接失效反馈

官方服务：

资源简介：

OnCoCo 1.0是一个用于在线心理咨询对话中细粒度消息分类的双语（德语-英语）数据集。它提供了一个详细的层次化注释系统，旨在捕捉心理社会咨询交流的丰富语义。语料库包含由专业咨询师和社会工作及计算机科学学生创建的2,778条消息，最初用德语撰写，后通过GPT-4o翻译成英语，共计5,556个样本。每条消息标注有38个咨询师或28个客户消息类别之一，反映影响因子、动机、问题分析和资源激活等方面。与现有数据集如MISC、MITI或ESConv不同，OnCoCo 1.0专注于基于文本的咨询，并强调心理社会实践中不同方法（如动机访谈、以客户为中心的疗法）的综合性质。所有对话均为合成但手动创建，语言真实，由专家策划以确保伦理合理性和代表性，无隐私风险。

OnCoCo 1.0 is a bilingual (German–English) dataset for fine-grained message classification in online counseling conversations. It provides a detailed, hierarchical annotation system designed to capture the rich semantics of psychosocial counseling exchanges. The corpus contains 2,778 messages created by professional counselors and students in social work and computer science. The messages were originally written in German and translated to English by GPT-4o, so its 5,556 samples in total. Each message is labeled with one of 38 counselor or 28 client message categories, reflecting impact factors, motivation, problem analysis, and resource activation. Unlike existing datasets such as MISC, MITI, or ESConv, OnCoCo 1.0 focuses on text-based counseling and emphasizes the integrative nature of psychosocial practice across different methods (e.g., Motivational Interviewing, client-centered therapy). All dialogues are synthetic but manually created, linguistically authentic, and curated by experts to ensure ethical soundness and representativeness without privacy risks.

提供机构：

th-nuernberg

搜集汇总

数据集介绍

构建方式

OnCoCo 1.0数据集由专业社会科学家与在线咨询师共同创建，基于Grawe（2000）的心理咨询理论、Miller与Rollnick（2012）的动机访谈原则以及在线咨询研究，构建了一套层次化的精细标注体系。研究团队首先撰写合成对话文本，确保其语言真实且符合专业咨询伦理，随后由6名专业咨询师和5名受训学生采用Mayring（2015）的定性内容分析方法进行人工标注。每条消息被归类至38种咨询师或28种来访者类别，涵盖影响因子、动机激发、问题分析与资源激活等维度。原始文本为德语，经GPT-4o翻译为英语并由人工校验，最终形成包含5556条样本的双语语料库。

特点

该数据集的核心特色在于其对在线心理咨询对话中细粒度消息类别的系统化标注，超越了现有数据集（如MISC、MITI或ESConv）在文本咨询领域的空白。层次化编码体系能够精确捕捉咨询师与来访者对话中的语义细微差异，例如反射性提问、情绪确认、资源激活与动机访谈技巧等。所有对话均为合成但经专家严格验证，确保无隐私风险且伦理合规。数据集提供德语与英语双语版本，并附有完整的类别映射文件，支持多语言场景下的迁移学习与跨语言模型训练。

使用方法

用户可通过HuggingFace Datasets库直接加载数据，使用`load_dataset("th-nuernberg/OnCoCoV1")`即可获取训练集与测试集。每条数据包含唯一标识、层次化代码、说话者类型（咨询师/来访者）、语言标签、消息文本及人类可读的类别描述。支持基于多类文本分类的任务，预测给定文本所属的细粒度消息类别。模型训练时可在消息前添加`Counselor:`或`Client:`标记以区分角色。此外，用户可下载`code_to_category.json`文件获取完整的类别映射，并借助已预训练的xlm-roberta-large模型进行微调或推理。

背景与挑战

背景概述

在线心理咨询作为心理健康服务的重要延伸，其对话数据的细粒度分析对于提升咨询质量与自动化评估系统的发展至关重要。在此背景下，由纽伦堡应用技术大学等多学科研究团队于2026年创建的OnCoCoV1数据集（OnCoCo 1.0），旨在填补当前心理咨询领域缺乏高质量、细粒度标注的多语种对话数据集的空白。该数据集由专业咨询师与社会工作、计算机科学学生共同创作，包含2778条德语原始消息及其英语翻译，总计5556条样本，覆盖咨询师与来访者共66个细粒度消息类别。其创新性的分层标注体系整合了Grawe的影响因素理论、动机性访谈及以人为中心疗法等多元心理咨询方法，为自动化对话分析、咨询师培训与人工智能驱动的心理咨询系统提供了关键资源。数据集的出现推动了计算社会科学与自然语言处理在心理健康领域的交叉融合，显著提升了在线咨询互动研究的可量化性与可复现性。

当前挑战

OnCoCoV1数据集所应对的核心领域挑战在于在线心理咨询对话中消息类别的精细化自动识别：心理咨询涉及复杂的语言策略如动机激发、问题分析与资源激活，传统粗粒度分类模型难以捕捉这些微妙的语义差异，而该数据集通过66种细粒度标签系统为多类文本分类任务奠基。在构建过程中，团队面临两大挑战：一是合成对话的真实性与伦理安全性——必须确保模拟语料在语言学上自然且契合专业咨询实践，同时完全规避真实案例的隐私风险；二是多层级标注体系的一致性与可操作性——六位专业咨询师与五位受训学生遵循Mayring定性内容分析框架进行手工标注，需调和跨学科团队对咨询技术分类的理解差异，并通过德语原文与GPT-4o翻译及人工验证的双语对齐保证数据跨语言适用性。

常用场景

经典使用场景

在在线心理咨询与心理健康支持领域，OnCoCoV1数据集为研究者提供了一个精细的多类别文本分类基准。该数据集包含咨询师与来访者之间的双语对话消息，每条消息被标注为66种细粒度沟通行为类别之一，涵盖了咨询开场、问题分析、动机激发、资源激活、情绪回应等核心环节。经典使用方式是将消息文本与说话者角色作为输入，训练分类器预测对应的沟通意图与策略类别，从而实现对咨询对话中专业行为模式的自动识别与量化分析。

解决学术问题

该数据集有效回应了现有语料库在咨询对话微观结构化分析方面的不足。传统数据集如MISC或ESConv多关注粗粒度的对话轮次或主题分类，难以捕捉咨询过程中援引不同疗法（如动机访谈、当事人中心疗法）的复合性技巧。OnCoCoV1通过引入层次化标注体系，使得研究者能够基于实证数据检验咨询师与来访者互动中的行为演变规律、治疗联盟建立机制以及跨方法融合的实际表现，从而推动心理治疗过程研究向更细粒度、更可计算的方向演进。

衍生相关工作

基于OnCoCoV1，研究团队已训练出多个针对在线咨询消息分类的预训练模型，其中表现最优的XLM-RoBERTa-large架构模型（th-nuernberg/xlm-roberta-large-online-counseling-oncoco）在66类细粒度分类任务上取得了领先效果。该工作验证了跨语言预训练模型在心理咨询文本理解中的有效性，并衍生出对咨询对话中特定行为变量（如共情表达、改变话语、情绪反馈）的自动提取方法。此外，数据集的公开载体还激发了对话系统社区对伦理合规合成数据生成、多语种心理咨询语料构建等方向的新探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集