CogInstruct

Name: CogInstruct
Creator: 牛津大学工程科学系
Published: 2024-12-19 00:26:47
License: 暂无描述

arXiv2024-12-19 更新2024-12-25 收录

下载链接：

http://arxiv.org/abs/2412.14009v1

下载链接

链接失效反馈

官方服务：

资源简介：

CogInstruct是一个用于可解释心理压力检测的指令调优数据集，由牛津大学工程科学系等机构开发。该数据集基于认知评估理论，通过三阶段的自我反思标注流程生成，旨在帮助大型语言模型（LLMs）生成逐步推理的压力检测解释。数据集的内容包括从刺激到评估、反应再到压力状态的认知链，适用于提升压力检测模型的可解释性和性能。

CogInstruct is an instruction-tuning dataset for explainable psychological stress detection, developed by the Department of Engineering Science of the University of Oxford and other institutions. Grounded in cognitive appraisal theory, this dataset is generated via a three-stage self-reflective annotation workflow, aiming to assist large language models (LLMs) in generating step-by-step reasoning explanations for stress detection. The dataset includes a cognitive chain spanning from stimulus, through appraisal and reaction, to stress state, and is designed to enhance the interpretability and performance of stress detection models.

提供机构：

牛津大学工程科学系

创建时间：

2024-12-19

搜集汇总

数据集介绍

构建方式

CogInstruct数据集的构建采用了三阶段自反思标注流程，结合了GPT-4o的强大生成能力与心理学专家的手动验证。首先，利用GPT-4o和Cognition Chain提示模板自动生成初步的认知链数据。随后，通过自反思和答案反思阶段，模型对生成的错误数据进行修正。最后，心理学专家对部分数据进行手动标注，并训练质量分类器以过滤低质量样本，确保数据的高质量。

特点

CogInstruct数据集的特点在于其基于认知评估理论的Cognition Chain结构，能够从认知视角逐步解释压力的生成过程。数据集包含刺激、评估、反应和压力状态四个步骤，每个步骤都经过详细的推理和解释。此外，数据集通过自反思流程和专家验证，确保了数据的准确性和可靠性，适用于训练具有解释能力的压力检测模型。

使用方法

CogInstruct数据集主要用于指令调优大语言模型，以提升其在压力检测任务中的解释能力。通过将数据集中的认知链数据输入模型，模型能够逐步推理压力的生成过程，并提供详细的解释。具体使用时，用户可以将社交媒体文本输入模型，模型将根据Cognition Chain的四个步骤生成推理过程，并输出压力状态及其解释。这种方法不仅提高了模型的检测性能，还增强了其在实际应用中的可信度。

背景与挑战

背景概述

CogInstruct数据集由牛津大学、清华大学、北京师范大学和武汉大学的研究团队于2024年提出，旨在通过认知理论指导大语言模型（LLMs）进行可解释的心理压力检测。该数据集的构建基于认知评估理论，提出了“认知链”（Cognition Chain）方法，通过逐步推理（Stimulus → Evaluation → Reaction → Stress State）来解释压力的生成过程。CogInstruct通过三阶段自反思标注流程生成，结合了自动生成和人工验证，确保了数据的高质量。该数据集的推出为心理压力检测领域提供了新的研究方向，推动了可解释人工智能在心理健康领域的应用。

当前挑战

CogInstruct数据集在构建和应用过程中面临多重挑战。首先，心理压力检测本身具有高度复杂性，社交媒体文本中的情感表达多样且隐晦，模型难以准确捕捉细微的压力信号。其次，现有的压力检测模型多为“黑箱”模型，缺乏解释性，难以获得用户和临床医生的信任。CogInstruct通过引入认知链方法，试图解决这一问题，但其推理过程的准确性和合理性仍需进一步验证。此外，数据集的构建依赖于高质量的人工标注，尽管采用了自反思流程，但仍需心理学专家的参与，导致数据生成成本较高。如何在保证数据质量的同时降低标注成本，是该数据集未来需要解决的关键问题。

常用场景

经典使用场景

CogInstruct数据集在心理压力检测领域具有广泛的应用，特别是在社交媒体文本分析中。通过结合认知评估理论，该数据集能够引导大型语言模型（LLMs）逐步生成压力状态的解释，从而提升模型的解释性和可信度。其经典使用场景包括对社交媒体用户发布的文本进行压力检测，并通过认知链（Cognition Chain）逐步推理出用户的压力状态及其生成过程。

衍生相关工作

CogInstruct数据集的推出催生了一系列相关研究，特别是在可解释性人工智能领域。基于该数据集，研究人员开发了CogLLM模型，该模型不仅在压力检测任务中表现出色，还能提供详细的推理解释。此外，CogInstruct还为其他心理学相关任务提供了数据支持，如情绪检测和心理健康评估，推动了认知理论与人工智能技术的深度融合。

数据集最近研究