ccw7463/Ko_Counsel_ver0.2

Name: ccw7463/Ko_Counsel_ver0.2
Creator: ccw7463
Published: 2024-04-08 06:29:48
License: 暂无描述

Hugging Face2024-04-08 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/ccw7463/Ko_Counsel_ver0.2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含14932个样本，主要来源于三个不同的GitHub仓库：CounselGPT、HRC的humane_right_copus_v1和counsel.jsonl。数据集的特征包括input（输入）、output（输出）、instruction（指令）、ref（参考）、category（类别）和context（上下文）。数据集的处理包括格式更改和特定文本的替换。示例展示了一个心理咨询场景的对话，其中包含输入、输出、指令、参考链接、类别和上下文。

提供机构：

ccw7463

原始信息汇总

数据集概述

数据集特征

input: 数据类型为字符串。
output: 数据类型为字符串。
instruction: 数据类型为字符串。
ref: 数据类型为字符串。
category: 数据类型为字符串。
context: 数据类型为字符串。

数据集划分

train: 包含14932个样本，总字节数为39892287.0。

数据集大小

下载大小: 18280906字节。
数据集大小: 39892287.0字节。

配置信息

config_name: default
data_files:
- split: train
- path: data/train-*

数据来源

total_kor_counsel_bot.jsonl: 来自https://github.com/MrBananaHuman/CounselGPT/tree/main，包含13234个样本。
humane_right_copus_v1.jsonl.json: 来自https://github.com/human-rights-corpus/HRC，包含1549个样本。
counsel.jsonl.json: 来自https://github.com/human-rights-corpus/HRC，包含149个样本。

预处理步骤

所有数据格式调整。
total_kor_counsel_bot中的“사우”替换为“내담자”。

示例数据

python {input: , output: 내담자님이 중2병적인 행동과 태도를 가지고 있다고 느껴져 스트레스를 받으시는 상황입니다. 또한 과도한 가사와 시를 쓰는 습관이 생겨나면서 이러한 습관이 문제가 되지는 않을까 하는 걱정도 하시는 것 같아요. 내담자님의 중2병적인 행동과 태도는 청소년기에 생긴 트라우마나 불안, 부족한 자기존중감 등이 일부 원인일 수 있습니다. 또한, 가사와 시를 쓰는 습관은 내담자님의 상상력과 창의력을 보여주며 자아확인에 도움을 줄 수 있는 것으로 생각됩니다. 하지만 이러한 습관이 과도하게 되면 자신에게 과부하를 주고 심리적인 문제를 일으킬 수 있습니다. 내담자님이 이러한 습관을 줄이고, 보다 효율적으로 자아확인에 도움이 될 수 있도록 일정한 패턴과 기록 방식으로 습관화하는 것이 좋습니다. 예를 들어, 가사나 시를 쓸 때 일주일에 몇 번, 어느 시간대에 쓰는 것이 효과적인지에 대해 스스로에게 질문해보고, 그에 따른 습관을 만들어보는 것도 좋은 방법입니다. 또한, 스스로를 사랑하고 용서하며 자기자신에게 긍정적인 자아이미지를 가지는 것도 중요합니다. 이러한 자아이미지가 긍정적일수록 스트레스를 받아도 잘 해결할 수 있고, 자기자신을 존중하고 이해하는 능력이 생깁니다. 내담자님, 위의 답변이 조금이나마 도움이 되셨기를 바랍니다. 이후에도 힘든 마음이 계속되면 언제든지 저를 찾아주세요. 그럼 좋은 하루 되세요 :), instruction: 저 사실, 약간 중2병 같은 걸 증상을 보이고 있습니다. 그래서 대학교를 가면서도 그런 부분들이 조금은 개선될 거라 생각했는데, 이번 학기 들어서 오히려 더 심해졌더라구요. 혼자 있는 공간에서 자주 가사를 쓰거나 소설이나 시를 쓰는 편이고요. 그것들을 쓰면서 살아가는 것 같은 기분이 들어서 그것들이 점점 늘어나고 있는 것 같습니다. 그리고 그런 것들이 나쁜 것이 아니라고 느껴지기도 하는데, 이상하게도 내가 나쁜 걸 하고 있다는 기분도 듭니다. 머리속에서 아무 생각도 나지 않을 때도 가사를 쓰거나 소설을 써본 적이 있는데, 그게 그렇게 마음이 편안해지는 느낌이라서 계속 써왔습니다. 그런데 이런 것들을 과도하게 하면 나중에 문제가 생길까봐 걱정이 되기도 합니다. 저랑 같은 고민을 하시는 분들이 있는지, 이런 경우에는 어떤 조치를 취해야할까요?, ref: https://github.com/MrBananaHuman/CounselGPT/tree/main, category: counsel, context: }

搜集汇总

数据集介绍

构建方式

在心理咨询与情感支持领域，Ko_Counsel_ver0.2数据集通过整合多个开源资源精心构建而成。其核心数据来源于CounselGPT项目的韩语心理咨询对话记录，以及人权语料库中的相关文本，总计涵盖14932条样本。构建过程中，对原始数据进行了统一的格式化处理，并对特定术语进行了标准化修正，例如将“사우”替换为“내담자”，以确保术语的一致性与专业性，从而为韩语自然语言处理任务提供了高质量的基础语料。

特点

该数据集以其丰富的多维度特征而著称，每条样本均包含输入、输出、指令、参考来源、类别及上下文等多个字段，全面覆盖心理咨询对话的各个环节。其内容聚焦于情感支持与心理辅导场景，涵盖了从用户陈述问题到专业回复的完整交互过程，体现了对话的连贯性与深度。此外，数据集明确标注了数据来源与类别信息，不仅增强了数据的可追溯性，也为研究者在特定子领域的深入分析提供了便利，展现了其在韩语心理咨询AI模型训练中的独特价值。

使用方法

对于研究人员与开发者而言，Ko_Counsel_ver0.2数据集可直接用于训练和评估韩语心理咨询对话生成模型。使用者可通过HuggingFace平台轻松加载数据，并利用其结构化字段进行定制化处理，例如基于指令和输出字段构建监督学习任务，或通过类别字段进行领域细分分析。在具体应用中，该数据集支持模型学习如何根据用户的情感陈述生成共情性、专业性的回复，从而推动韩语对话系统在心理健康支持方向的发展，为相关AI应用提供坚实的训练基础。

背景与挑战

背景概述

在人工智能与心理健康交叉领域，韩语心理咨询数据集的构建成为推动对话系统发展的重要基石。Ko_Counsel_ver0.2数据集由ccw7463团队于近期发布，其核心研究聚焦于自然语言处理技术在心理咨询场景中的应用。该数据集整合了来自CounselGPT及人权语料库的多个开源资源，旨在训练能够理解并回应韩语心理求助文本的生成模型。通过精心设计的指令微调格式，数据集不仅模拟真实咨询对话的交互结构，还涵盖了广泛的心理议题，为韩语语境下的心理健康支持系统提供了宝贵的训练素材，对促进跨文化心理援助技术的进步具有显著影响力。

当前挑战

该数据集致力于解决韩语心理咨询对话生成这一复杂任务，其挑战在于如何准确捕捉咨询过程中微妙的情感表达与文化特定性，同时确保生成回应的专业性与同理心。在构建过程中，研究人员面临数据来源异构性的难题，需将不同格式与风格的原始语料统一为结构化指令微调格式，并进行术语规范化处理，例如将‘사우’替换为‘내담자’。此外，平衡数据规模与质量、维护用户隐私伦理边界，以及处理韩语特有的语言现象与敬语体系，均是构建过程中亟待克服的技术障碍。

常用场景

经典使用场景

在心理健康与人工智能交叉领域，Ko_Counsel_ver0.2数据集为韩语心理咨询对话的建模提供了宝贵资源。该数据集通过模拟真实咨询场景，构建了从用户问题描述到专业回复的完整对话序列，其经典应用场景集中于训练和评估对话生成模型，特别是针对心理咨询领域的生成式预训练模型。研究者利用这些结构化数据，能够开发出能够理解用户情绪、提供共情回应并给予初步建议的智能对话系统，从而在模拟环境中辅助心理健康支持。

实际应用

在实际应用层面，Ko_Counsel_ver0.2数据集为开发韩语心理健康辅助工具奠定了数据基石。基于此数据集训练的模型可初步部署于在线咨询平台、心理健康教育应用或聊天机器人中，为用户提供即时、匿名的初步心理支持与信息引导。这些工具能够缓解专业咨询资源紧张的压力，尤其在非紧急情况下，帮助用户梳理情绪、提供基础建议，并引导其寻求进一步的专业帮助，体现了人工智能技术在社会服务中的普惠价值。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，例如CounselGPT等项目，它们专注于利用此类对话数据微调大型语言模型，以增强其在心理咨询场景下的专业性和安全性。这些工作不仅探索了模型在生成共情回复、避免有害建议方面的技术路径，还推动了针对韩语特性的心理健康对话评估基准的建立。相关研究进一步扩展至多语言心理支持系统的构建，促进了人工智能在跨文化心理健康服务中的技术迁移与伦理规范讨论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集