CogniBench

Name: CogniBench
Creator: 香港科技大学（广州）, 腾讯混元数字人, 北京邮电大学, 上海人工智能实验室
Published: 2025-05-28 14:17:19
License: 暂无描述

arXiv2025-05-28 更新2025-05-29 收录

下载链接：

https://github.com/FUTUREEEEEE/CogniBench

下载链接

链接失效反馈

官方服务：

资源简介：

CogniBench是一个基于知识的对话数据集和框架，用于评估大型语言模型（LLM）的认知忠实度。该数据集包含超过24000个对话，每个对话都有句子级别的幻觉标注。CogniBench通过法律启发式的评估协议提供句子的详细标注，旨在减少主观性，并为不同的应用场景提供三个不同层次的忠实度标准：合理的、有根据的和无争议的。CogniBench-L数据集是一个大规模的扩展版本，通过自动化标注流程生成，支持训练精确的认知幻觉检测模型。

CogniBench is a knowledge-grounded dialogue dataset and framework for evaluating the cognitive fidelity of Large Language Models (LLMs). This dataset contains over 24,000 dialogues, each paired with sentence-level hallucination annotations. CogniBench provides detailed sentence-level annotations via a law-inspired evaluation protocol, which aims to mitigate subjectivity and offers three distinct fidelity criteria for diverse application scenarios: plausible, grounded, and undisputed. The CogniBench-L dataset is a large-scale extended variant generated through automated annotation pipelines, supporting the training of precise cognitive hallucination detection models.

提供机构：

香港科技大学（广州）, 腾讯混元数字人, 北京邮电大学, 上海人工智能实验室

创建时间：

2025-05-27

原始信息汇总

CogniBench数据集概述

数据集简介

名称：CogniBench
类型：知识基础对话数据集与评估框架
主要用途：评估大型语言模型(LLMs)的认知忠实度
创新点：首个专注于"认知陈述"而非仅"事实陈述"的评估框架

核心组件

CogniBench：包含句子级忠实度标注，采用递增的严格标准
自动标注流程：利用LLMs作为评判者评估高级LLMs的忠实度
CogniDet：专为低成本幻觉检测优化的8B参数模型

数据集结构

对话数据(dialogues.json)

id：数据标识符(格式：数字_语言_测试轮次)
dialogue：完整对话记录
current_turn：当前轮次对话内容
turn_index：测试轮次编号
reference：知识基础对话的上下文
language：语言类型
topic：对话主题
current_turn_processed：助手在当前轮次的回答

标注数据(labels.json)

hallu_list：包含事实和认知幻觉的句子列表
factual_list：事实性句子列表
cognitive_list：认知性句子列表
sentence_label_dict：句子级标注摘要

自动标注流程

使用RefGPT生成数据
执行单行代码自动标注： python python auto_label.py --input_path data/Llama-3.1-70B-Instruct_processed.jsonl --method multi_run --prompt_version v2_2 --data_verson 300_turn --model_name gpt-4-1106-preview-nlp --dialogue_model

模型资源

CogniDet权重：可通过匿名云存储下载下载链接

待完成事项

上传CogniBench-L数据集
将数据集同步至Huggingface
将模型同步至Huggingface

搜集汇总

数据集介绍

构建方式

CogniBench数据集的构建过程融合了法律领域的严谨评估框架与大规模语言模型的先进技术。研究团队首先采用RefGPT方法生成多轮知识驱动的对话，确保对话内容在最小化事实错误的同时，充分体现真实场景中的语言模型使用模式。通过GPT-4等先进模型生成初始对话语料后，专业标注团队依据精心设计的法律启发式三级评估标准（理性、有据、确证）对每个句子进行细粒度标注。标注过程采用独特的序列决策框架，显著提升了标注者间一致性至96.19%，同时减少48%的质量检查工作量。为突破人工标注的规模限制，团队进一步开发了基于对比形成提示和多响应采样的自动标注流程，将数据集扩展为包含24k对话的CogniBench-L。

使用方法

使用该数据集时，研究者可通过三种路径发挥其价值：对于模型评估，可利用标注的2516个句子级样本，按照三级标准系统分析语言模型在推理、评价等认知任务中的忠实度表现。针对幻觉检测模型开发，24万自动标注的CogniBench-L样本支持训练专用检测器，如研究中展示的CogniDet模型在认知幻觉检测上达到73.8%的F1值。进阶应用中，多轮对话结构允许研究认知动态演变规律，包括分析幻觉在对话不同位置的分布特征（认知幻觉多出现在话轮首尾）。数据集配套提供的自动标注工具链支持研究者快速适配新模型评估，通过对比形成提示策略确保标注一致性，而多数表决机制则有效控制单次标注的随机性。

背景与挑战

背景概述

CogniBench是由香港科技大学（广州）、腾讯混元AI数字人、北京邮电大学和上海人工智能实验室的研究团队于2025年提出的一个创新性数据集，旨在评估大型语言模型（LLMs）生成的认知陈述的忠实性。该数据集受到法律领域证据评估的启发，提出了一个严格的框架来评估不同层次的认知忠实性，并创建了一个包含丰富统计信息的基准数据集。CogniBench的推出填补了现有基准测试主要关注“事实陈述”而忽略“认知陈述”的空白，为评估和优化LLMs在生成推理、解释和评价等认知陈述时的忠实性提供了重要工具。该数据集对医学、法律和金融等高风险领域中的LLMs应用具有重要的影响力。

当前挑战

CogniBench面临的挑战主要包括两个方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，CogniBench致力于解决LLMs生成认知陈述时的忠实性问题，这一问题在现有基准测试中缺乏数据和标准化评估方法。认知陈述的评估具有主观性（例如判断解释是否合理）且高度依赖上下文，不同领域的需求差异显著（如创意写作与临床诊断）。在构建过程中，手动标注对于快速更新的LLMs来说不切实际，因此需要开发低资源、自动化的评估方法，以适用于事实和认知陈述。此外，确保标注的一致性和减少主观性也是构建过程中的主要挑战。

常用场景

经典使用场景

CogniBench数据集在评估大型语言模型（LLM）生成认知陈述的忠实性方面具有经典应用场景。通过多轮知识对话的形式，该数据集能够系统性地检测模型在生成推理、评价和解释等认知性内容时的忠实性问题。其法律启发的评估框架为研究者提供了标准化的工具，以量化模型在复杂推理任务中的表现。

解决学术问题

该数据集解决了LLM领域两个关键学术问题：一是填补了认知陈述评估标准化的空白，通过法律启发的三级评估标准（合理、有据、确凿）实现了对主观推理内容的客观量化；二是突破了传统基准仅关注事实性陈述的局限，首次系统性地捕捉了模型在高层认知任务中的幻觉现象，为改进模型推理能力提供了数据基础。

实际应用

在实际应用中，CogniBench为医疗诊断AI、法律咨询系统和金融分析工具等高风险领域提供了可靠性评估框架。例如，医疗AI不仅需要准确复述病历信息，还需进行诊断推理，该数据集的三级评估标准能有效区分合理推测与无根据的臆断，确保AI输出的临床建议具有可验证的逻辑链条。

数据集最近研究