five

KoACD

收藏
arXiv2025-05-01 更新2025-05-03 收录
下载链接:
https://github.com/cocoboldongle/KoACD
下载链接
链接失效反馈
官方服务:
资源简介:
KoACD数据集是第一个针对韩国青少年认知扭曲的大规模数据集,包含108,717个实例。该数据集旨在促进未来对认知扭曲检测的研究。数据集来源于NAVER知识iN问答平台,主要包含青少年咨询组织和服务的数据。为了提高数据集的质量和多样性,使用了多大型语言模型(LLM)谈判方法来识别和分类认知扭曲,并通过认知澄清和认知平衡两种方法生成合成数据。最后,通过LLM谈判技术和独立评估,确保了数据集的准确性和有效性。

The KoACD dataset is the first large-scale dataset focused on cognitive distortions among Korean adolescents, consisting of 108,717 instances. This dataset is designed to facilitate future research on cognitive distortion detection. The dataset is sourced from the NAVER Knowledge iN Q&A platform, primarily containing data from adolescent counseling organizations and services. To enhance the quality and diversity of the dataset, multiple large language model (LLM)-based negotiation methods were utilized to identify and classify cognitive distortions, and synthetic data was generated through two approaches: cognitive clarification and cognitive balancing. Finally, the accuracy and validity of the dataset were confirmed via LLM-based negotiation techniques and independent evaluations.
提供机构:
加图恩大学计算机工程学院
创建时间:
2025-05-01
搜集汇总
数据集介绍
main_image_url
构建方式
KoACD数据集的构建采用了多阶段精细化的方法,首先从韩国最大的开放式问答平台NAVER Knowledge iN中爬取了2011-2024年间五大青少年咨询机构的37,124条问题数据。通过预清洗流程剔除成人内容后,创新性地采用Gemini 1.5 Flash与GPT-4o mini双大语言模型谈判机制,设计五轮角色轮换的交互式分析流程(分析器-评估器交替),结合克劳德3 Haiku的独立验证,最终生成108,717条标注数据。针对数据不平衡问题,通过认知澄清(保持原意的文本重构)和认知平衡(基于未知样本的定向生成)两种合成方法,确保十类认知扭曲的均衡分布。
特点
作为首个针对韩语青少年的大规模认知扭曲数据集,KoACD具有三大核心特征:其一是覆盖贝克定义的十类典型认知扭曲(如全有全无思维、情绪化推理等),通过专家验证的标注体系实现细粒度分类;其二是创新性地融合真实用户数据与LLM生成的合成数据,既保留青少年真实语言特征(如表情符号使用),又通过文本重构提升语义清晰度;其三是严格的多层次质量验证,包括LLM谈判共识机制、独立模型验证(克劳德3 Haiku评分≥3的样本占比95.53%)以及心理学专家人工评估(Cohen's kappa=0.78),确保数据可靠性。数据集特别凸显青少年在学业压力(36.9%)、人际关系(27.4%)等领域的认知模式。
使用方法
该数据集支持三类典型应用场景:研究者可通过文本分类任务(如BERT等模型)探索特定认知扭曲的语言标记;临床工作者可利用其构建青少年心理健康筛查工具,特别是与DSM-5抑郁症状(如兴趣丧失23.8%)关联分析;开发者还可基于多LLM谈判框架优化认知扭曲识别算法。使用时应区分原始数据(含非规范表达)与合成数据(语法规范),注意人类专家在情境依赖型扭曲(如心理过滤)识别上的优势。数据集已开源,建议结合聚类分析(如K-means)挖掘129个负面情绪触发关键词的分布模式,并参考论文提供的评估标准(一致性、准确性、流畅性)进行模型验证。
背景与挑战
背景概述
KoACD数据集由韩国加川大学和延世大学的研究团队于2025年创建,是首个专注于韩国青少年认知扭曲分析的大规模语料库,包含108,717条标注实例。该数据集通过创新性地采用多大型语言模型(LLM)协商机制,系统化地识别了贝克认知疗法定义的十类认知扭曲模式,填补了现有研究在非英语青少年群体中的空白。其数据来源于韩国最大问答平台NAVER Knowledge iN中2011-2024年间青少年心理咨询机构的公开文本,通过严格的预处理和伦理审查流程,为青少年心理健康领域的早期干预研究提供了重要基础。
当前挑战
KoACD面临的核心挑战体现在两个方面:在领域问题层面,认知扭曲的复杂性和共现性导致分类边界模糊,特别是需要上下文推理的'心理过滤'和'夸大缩小'等类型,现有模型对显性语言标记的依赖造成识别准确率波动;在构建过程中,多LLM协商机制面临角色固定性导致的谈判失衡,约17%的文本因无法达成共识被归类为未知,同时原始数据的语言不规范性和类别不平衡(如'全或无思维'占比10.5%而'贬损积极'仅1.45%)迫使研究团队开发认知澄清与平衡两种合成数据生成方法,但人工评估显示合成数据在逻辑一致性上与真实表达仍存在0.23分的评分差距。
常用场景
经典使用场景
KoACD数据集在青少年心理健康研究中具有重要应用价值,特别是在认知扭曲分析领域。该数据集通过大规模收集韩国青少年的认知扭曲实例,为研究者提供了丰富的语言数据,用于训练和评估自然语言处理模型。其经典使用场景包括认知扭曲的自动分类、青少年心理健康状况的早期筛查以及心理干预措施的开发。数据集的多LLM协商方法为认知扭曲的识别提供了新颖的技术路径。
实际应用
在实际应用层面,KoACD数据集可广泛应用于教育系统和心理健康服务领域。学校心理咨询师可利用基于该数据集开发的工具进行学生心理健康筛查,识别存在认知扭曲风险的学生。医疗机构可将其整合到数字化诊疗系统中,辅助专业人员进行诊断和治疗方案制定。此外,该数据集还为开发面向青少年的心理健康教育应用程序提供了语言素材和评估基准。
衍生相关工作
KoACD数据集已衍生出多个相关研究领域。在技术上,它推动了多LLM协商方法在心理健康文本分析中的应用研究。在应用层面,基于该数据集开发的认知扭曲检测模型被扩展用于其他语言和文化背景的研究。此外,数据集还激发了关于青少年特定认知扭曲模式与DSM-5诊断标准关联性的深入研究,为建立更精确的心理健康评估框架提供了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作