Cognitive Reasoning Dataset

Name: Cognitive Reasoning Dataset
Creator: 清华大学计算机科学与技术系自然语言处理与社会人文计算实验室
Published: 2025-09-27 00:27:29
License: 暂无描述

arXiv2025-09-27 更新2025-09-30 收录

下载链接：

https://github.com/thu-coai/CogFlow

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集通过模拟人类思维，使用树状结构规划来收集认知流，并使用高级语言模型进行数据过滤和筛选，最终形成了一个用于社交认知的数据集。该数据集旨在帮助大型语言模型（LLMs）提高社交认知能力，以便更好地处理社交场景中的复杂情况。

This dataset collects cognitive flows through tree-structured planning that simulates human thinking, and conducts data filtering and screening via advanced language models, ultimately creating a social cognition-focused dataset. It is designed to assist Large Language Models (LLMs) in enhancing their social cognitive competence, so as to better handle complex situations in social scenarios.

提供机构：

清华大学计算机科学与技术系自然语言处理与社会人文计算实验室

创建时间：

2025-09-27

原始信息汇总

CogFlow数据集概述

数据集简介

CogFlow是一个基于人类社交认知建模的认知推理范式数据集，旨在弥补大语言模型在社交情境推理方面的不足。该数据集将解释性过程构建为相互连接的认知单元组成的结构化认知流，通过自适应组合实现有效的社交思维和响应。

核心特征

模拟人类思维的联想性和渐进性特征
采用树状结构规划生成认知流
包含观察、归因等相互连接的认知单元
支持社交认知能力的增强训练

训练框架

监督微调阶段

通过监督微调注入基本认知推理能力
使用树状结构规划生成的认知流数据集

强化学习阶段

采用多目标奖励机制优化认知流和响应质量
通过试错过程实现模型自我改进
结合认知流质量和响应质量的双重优化目标

实验验证

实验结果表明，CogFlow能有效增强大语言模型的社交认知能力，并提升人类的社会决策效果。

相关资源

数据生成：查看data_generation目录
监督微调：查看Llama-Factory目录获取指导
强化学习：查看veRL目录获取指导
评估工具：查看test目录

搜集汇总

数据集介绍

构建方式

在社交认知计算领域，构建高质量数据集面临社会情境复杂性与答案不确定性的双重挑战。本研究通过树状认知流模拟技术构建数据集：首先从Reddit平台筛选5100个多人在线社交情境作为种子数据，经深度匿名化处理后，采用大型语言模型模拟人类认知的联想递进特性，以观察单元为根节点逐步生成归因、动机等六大认知单元，形成分支推理树；继而通过双阶段偏好排序机制，基于社会认知理论构建连贯性、可解释性与可预测性三重过滤标准，从众多认知流中筛选出高质量样本，最终形成包含3661条认知流的高质量训练数据。

特点

该数据集在社交推理领域展现出显著特征：其认知流结构模拟人类社交思维过程，将观察、归因等六个核心认知单元通过动态连接形成结构化推理路径，有效避免传统逻辑推理在社交场景中的认知反刍现象；数据覆盖家庭、友谊、职业等五大社交类别十六个子类，情境复杂度显著高于现有社交推理数据集；每条认知流平均包含4个认知单元，在保持推理深度的同时将平均推理长度控制在400词元以内，实现了认知深度与效率的平衡；通过专家验证的数据质量达到96.8%通过率，确保了数据的可靠性与实用性。

使用方法

该数据集支持多层次社交认知能力训练：在监督微调阶段，模型学习将认知单元标签作为特殊标记嵌入词汇表，通过最小化标准SFT损失函数掌握结构化认知推理能力；在强化学习阶段，采用多目标奖励机制引导模型自主优化认知流，其中比较偏好奖励通过专用奖励模型评估响应质量，认知多样性奖励鼓励探索不同推理路径，推理长度奖励防止过度思考，结构格式奖励确保输出规范性；最终模型能够生成符合社交认知理论的高质量推理过程，为社交决策提供透明可解释的思维轨迹。

背景与挑战

背景概述

认知推理数据集由清华大学CoAI团队与华为诺亚方舟实验室于2025年联合构建，旨在解决大语言模型在社交情境中的认知推理缺陷。该数据集基于社会认知理论框架，将人类社交思维过程解构为观察、归因、动机等六个认知单元，通过树状规划模拟人类思维的联想性与渐进性特征。其核心研究问题聚焦于如何将传统逻辑推理范式转化为适用于社交场景的阐释性推理，为人工智能社交智能的发展提供了结构化认知范式与训练基础。

当前挑战

该数据集面临双重挑战：在领域问题层面，需突破传统逻辑推理对确定性答案的依赖，建立适用于社交场景中模糊线索分析的阐释性推理范式；在构建过程中，需通过树状规划模拟人类认知流程的动态分支，并设计基于相对合理性的偏好排序机制以解决社交场景中缺乏标准答案的评估难题。同时需平衡认知单元的多样性探索与推理链长度控制，避免陷入认知反刍的无效循环。

常用场景

经典使用场景

在社交智能研究领域，Cognitive Reasoning Dataset最经典的运用场景是评估和提升大语言模型对复杂社交情境的认知推理能力。该数据集通过模拟真实社交互动中的多维度认知单元，如观察、归因、动机调节等，构建出结构化认知流。研究人员利用这些精心设计的社交场景，能够系统分析模型如何理解微妙的人际暗示、预测行为反应，并生成符合社会规范的合理回应。这种结构化认知框架为探索机器社交智能提供了标准化实验平台。

衍生相关工作

该数据集催生了系列创新性研究，其中最具代表性的是CogFlow训练框架。该框架通过树状认知流模拟、偏好排序筛选和多目标强化学习的三阶段训练，首次实现了社交认知能力的内化。后续研究在此基础上拓展出认知单元自适应调度机制、跨文化社交推理评估等方向。同时启发了SocialMaze等社交推理基准的构建，推动了Theory of Mind在语言模型中的量化研究，形成以结构化认知推理为核心的新兴研究范式。

数据集最近研究

相关研究论文

1
Think Socially via Cognitive Reasoning清华大学计算机科学与技术系自然语言处理与社会人文计算实验室 · 2025年

以上内容由遇见数据集搜集并总结生成

OlympicArena

OlympicArena是由上海交通大学和上海人工智能实验室联合创建的综合性数据集，包含11,163个跨学科问题，涵盖数学、物理、化学等七个领域，旨在评估和推动AI在复杂认知推理方面的能力。数据集支持中英文双语，包含文本和图文混合两种模式，通过精细化的评估机制，深入分析AI在不同学科和复杂任务中的表现，以期推动AI向超智能方向发展。

arXiv2024-06-19 更新970

IconQA (Icon Question Answering)

当前的视觉问答（VQA）任务主要考虑在日常生活环境中回答人工注释的自然图像问题。图标问答 (IconQA) 是一个基准测试，旨在强调抽象图表理解和全面认知推理在现实世界图表文字问题中的重要性。对于这个基准，构建了一个大规模的 IconQA 数据集，该数据集由三个子任务组成：多图像选择、多文本选择和填充空白。与现有的 VQA 基准相比，IconQA 不仅需要对象识别和文本理解等感知技能，还需要几何推

OpenDataLab2026-07-12 更新550

Cognitive load in face-to-face interactions: Evidence from neurodevelopmental disorders

When thinking, especially about cognitively demanding material, we often avert our gaze from the face of our interlocutor or other potentially distracting aspects of the visual environment (eg Glenber

CESSDA2025-06-04 更新170

IconQA

IconQA是一个大规模的数据集，包含107,439个问题，旨在评估抽象图标图像理解和视觉语言推理能力。该数据集由加州大学洛杉矶分校视觉、认知、学习和自主中心创建，包含三个子任务：多图像选择、多文本选择和填空。IconQA数据集灵感来源于现实世界的图表问题，强调了抽象图标理解的重要性，并要求模型不仅具备对象识别和文本理解等感知技能，还需要几何推理、常识推理和算术推理等多样化的认知推理技能。此外，为

arXiv2022-07-25 更新840

kaist-ai/DepthQA

DepthQA是一个新颖的问答数据集，旨在评估语言模型在图基推理能力上的表现。它基于Webb的知识深度（DOK）层次结构，将问题分为三个深度：D1（事实和概念）、D2（程序性）和D3（战略性）。数据集通过自上而下的方法构建，将复杂的D3问题分解为相关的D2和D1问题，形成图状结构，边表示不同知识深度之间的推理过程。DepthQA涵盖多个领域和推理类型，问题设计确保全面性、隐式性和非二元响应。这种结

Hugging Face2024-10-14 更新230