Jincenzi/COKE

Name: Jincenzi/COKE
Creator: Jincenzi
Published: 2024-10-25 04:17:06
License: 暂无描述

Hugging Face2024-10-25 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/Jincenzi/COKE

下载链接

链接失效反馈

官方服务：

资源简介：

COKE数据集是第一个用于机器理论的心理认知知识图谱，旨在赋予AI系统理论心理能力，缩小它们与人类之间的差距。数据集分为训练集和验证集，用于四个生成任务，其中极性标签0表示负面，1表示正面。

The COKE dataset is the first cognitive knowledge graph for machine theory of mind, designed to empower AI systems with Theory of Mind ability and narrow the gap between them and humans. The dataset is divided into training and validation sets for four generation tasks, with polarity labels where 0 indicates Negative and 1 indicates Positive.

提供机构：

Jincenzi

搜集汇总

数据集介绍

构建方式

在认知科学领域，心智理论（Theory of Mind）是智能系统模拟人类心理状态的核心能力。为弥补当前人工智能在此方向的不足，研究者提出了COKE——首个面向机器心智理论的认知知识图谱。该数据集基于ACL 2024 Oral论文构建，通过系统化整理认知状态与事件之间的因果关联，形成结构化的知识表示。具体而言，COKE以事件触发条件、心理状态变化及行为反应为三元组核心，利用大规模文本语料进行自动抽取与人工校验相结合的方式完成数据构建，最终形成包含千万级样本的认知图谱。

特点

COKE数据集最显著的特点在于其认知导向的图谱设计，突破了传统知识图谱仅关注实体关系的局限。数据集明确区分了正向与负向心理状态极性（Polarity），以0和1分别标注消极与积极认知，为情感计算提供细粒度标注。此外，数据集覆盖训练与验证两阶段，支持四种生成任务的标准化评估，其规模介于千万至亿级之间，确保了统计效力与模型泛化能力。这些特性使COKE成为连接认知科学与自然语言处理的关键桥梁。

使用方法

COKE数据集的使用遵循标准化流程，适用于心智理论相关的生成任务。研究者可直接加载预划分的训练集与验证集，其中每条样本包含事件描述、认知状态标签及极性标识。数据集以HuggingFace格式发布，兼容Transformers等主流框架，支持微调与零样本评估。具体应用时，可基于极性字段（0/1）设计分类或生成损失函数，或利用图谱结构进行因果推理训练。详细代码与基线模型已开源至GitHub仓库，便于复现论文实验。

背景与挑战

背景概述

在人工智能领域，心智理论（Theory of Mind）是使机器具备理解他人信念、意图与情感能力的关键，然而现有系统在此方面与人类存在显著差距。为弥合这一鸿沟，Jincenzi Wu、Zhuang Chen、Jiawen Deng等研究人员于2024年在ACL会议上发表了题为“COKE: A Cognitive Knowledge Graph for Machine Theory of Mind”的口头报告论文，并同步发布了COKE数据集。该数据集由清华大学等机构主导构建，首次提出了一种面向机器心智理论的认知知识图谱，旨在系统性地编码人类认知过程中的因果与情感关系。COKE的发布为自然语言处理与认知科学的交叉研究提供了基础资源，其影响力体现在为AI系统赋予更深层次的社交智能开辟了新路径，并推动了相关领域从感知智能向认知智能的演进。

当前挑战

COKE数据集所应对的核心挑战在于，当前AI模型缺乏对人类心智状态的显式建模能力，难以处理涉及信念、意图与情感推理的复杂任务，这限制了其在人机交互、教育辅导等场景中的实用性。在构建过程中，研究人员面临多重困难：首先，认知知识的结构化表达缺乏统一标准，需从海量文本中提取符合认知规律的因果与情感三元组；其次，数据标注需兼顾心理学理论的严谨性与机器学习的可操作性，导致标注成本高昂且一致性难以保证；此外，数据规模达到千万级别（10M至100M条），在确保高质量的同时需设计高效的自动生成与校验机制。这些挑战共同构成了COKE数据集从理论到落地的关键瓶颈。

常用场景

经典使用场景

在认知科学与人工智能的交叉领域中，COKE数据集被广泛用于构建和评估机器心理理论能力。其经典使用场景聚焦于认知知识图谱的生成与推理任务，涵盖因果归因、信念理解、情绪推断与意图预测四大维度。研究者借助该数据集训练模型模拟人类对他人心理状态的认知过程，从而在机器中复现类似人类的社会智能。通过结构化的认知三元组，COKE为机器提供了理解信念与事实之间矛盾、推断隐藏情绪以及预测后续行为的能力基础，成为心理理论机器学习研究的标杆性基准。

衍生相关工作

COKE数据集的提出催生了一系列具有影响力的衍生工作。在模型层面，研究者基于其认知三元组结构设计了心理理论推理网络，将图注意力机制与认知状态编码相结合，显著提升了信念推断的准确性。在任务拓展方面，后续工作将COKE与多模态数据融合，构建了视觉-认知联合推理框架，使机器能够从图像与文本中同步理解他人心理状态。此外，围绕COKE衍生了认知一致性评估指标与对抗性测试集，用于检验模型在复杂社会情境下的鲁棒性。这些成果共同推动了认知知识图谱从理论构建走向系统性应用，形成了以COKE为核心的机器心理研究生态。

数据集最近研究