KAIROS_EVAL
收藏Hugging Face2025-08-24 更新2025-08-25 收录
下载链接:
https://huggingface.co/datasets/declare-lab/KAIROS_EVAL
下载链接
链接失效反馈官方服务:
资源简介:
KAIROS_EVAL是一个用于评估大型语言模型在多代理社会互动场景中鲁棒性的基准数据集。它包含了多选问答任务,并且能够模拟同伴影响来评估模型在社交压力下的表现。
提供机构:
Deep Cognition and Language Research (DeCLaRe) Lab
创建时间:
2025-08-24
原始信息汇总
KAIROS_EVAL 数据集概述
数据集简介
KAIROS是一个基准数据集,旨在评估大型语言模型(LLMs)在多智能体社交互动场景中的鲁棒性。该数据集通过捕获模型的原始信念(答案和置信度),并模拟具有不同可靠性的智能体同伴影响,动态构建每个模型的评估设置。
支持任务与排行榜
- 多项选择问答(MCQA),涵盖推理、知识、常识和创造力四个领域
- 鲁棒性评估:量化原始设置和同伴影响(KAIROS)设置之间的性能变化
- 效用与抵抗分析:跟踪模型在社会影响下纠正错误或保持正确答案的能力
数据集结构
- 训练集:10,000个实例
- 测试集:3,000个实例
- 所有任务均格式化为多项选择问答(MCQA)
- 为开放式任务生成并验证干扰答案
- 每个实例包含:原始模型答案和置信度、同伴智能体响应(支持、强硬反对、温和反对)、模拟信任动态的交互历史
领域覆盖
- 推理:逻辑谜题、MATH-500、LiveCodeBench、BBH-hard
- 知识:TruthfulQA、MMLU-Pro
- 常识:CommonsenseQA 2.0、Social IQ
- 创造力:MacGyver问题解决、BrainTeaser谜题
评估指标
- 准确率:答案的正确性
- 鲁棒性(O–K ∆):原始和KAIROS评估之间的性能稳定性
- 效用:利用同伴输入修正错误的能力
- 抵抗:在社会压力下保持正确答案的能力
使用场景
- 评估LLMs在多智能体环境中的鲁棒性
- 研究AI中的从众偏差和信任敏感性
- 训练和基准测试社会基础推理模型
数据格式
- 数据根目录:
data/ - 评估集:
data/final_test.json(JSON Lines格式) - 训练集:
data/final_train_dict_MAS/、data/final_train_dict_nonMAS/、data/final_train_dict_SFT/- MAS:多智能体系统设置
- nonMAS:非多智能体;直接单轮提示目标LLM
- SFT:监督微调对
子数据集
包含bbh、truthfulqa、moral_stories、math500、winogrande、simpleqa、popqa、commonsenseqa、protoqa、siqa、riddle_sense、mmlupro、final_test、brainteaser、livecode、macgyver、socialnorm、aqua_rat等
语言
主要语言:英语(部分项目可能包含数学符号/LaTeX)
许可证信息
- 许可证:Apache-2.0
- 部分子数据集可能源自第三方来源,具有自己的许可证
引用信息
bibtex @article{kairos_mas, title={LLMs Can’t Handle Peer Pressure: Crumbling under Multi-Agent Social Interactions}, author={Maojia Song, Tej Deep Pala, Weisheng Jin, Amir Zadeh, Chuan Li, Dorien Herremans, Soujanya Poria}, year={2025}, url={https://github.com/declare-lab/KAIROS} }
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,KAIROS_EVAL数据集通过精心设计的动态评估框架构建,涵盖推理、知识、常识和创造力四大领域。其构建过程首先收集来自多个权威子数据集的问题,如MATH-500和TruthfulQA,随后生成干扰选项并验证其有效性。每个实例不仅包含原始模型答案及置信度,还模拟多智能体社会互动,通过人工代理生成支持或反对的反馈,并记录信任动态变化的历史交互数据,以此构建复杂的社会压力场景。
特点
该数据集的核心特点在于其多维度评估能力,专注于大语言模型在多智能体社交互动中的鲁棒性表现。其独特之处在于动态模拟同伴影响,通过三种协议类型(支持、强硬反对、温和反对)构建社会压力环境。数据集覆盖广泛领域,从逻辑推理到创造性问题解决,每个实例均包含完整的交互历史和信任度量化指标。这种设计使得研究者能够深入分析模型在 conformity bias 和信任敏感性方面的表现,为社交推理研究提供丰富数据支撑。
使用方法
研究人员可通过Hugging Face数据集库直接加载评估集和训练集,其中评估集采用JSON Lines格式存储,支持流式读取以处理大规模数据。训练集分为多智能体设置、单智能体设置和监督微调三种类型,分别对应不同的学习场景。使用时应首先通过load_dataset或load_from_disk函数加载相应数据文件,注意不同子数据集的字段结构可能有所差异。典型应用包括计算模型在原始设置和KAIROS设置下的准确性变化,分析效用和抵抗指标,以及研究社会影响下的模型行为变化。
背景与挑战
背景概述
KAIROS_EVAL数据集由新加坡南洋理工大学等研究机构于2025年推出,专注于评估大语言模型在多智能体社交互动场景中的鲁棒性。该数据集通过模拟真实社交环境中的同伴影响机制,系统性地捕捉模型在原始信念与群体压力之间的动态博弈,填补了传统静态问答数据集在社交认知评估方面的空白。其跨领域设计涵盖推理、知识、常识与创造力四大维度,为人工智能社会性推理研究提供了重要基准。
当前挑战
该数据集核心挑战在于解决大语言模型对从众偏见的敏感性,以及其在多智能体环境中保持理性决策的稳定性问题。构建过程中需克服动态信任建模的复杂性:既要生成具有不同可靠性的智能体响应,又要确保对抗性干扰选项的语义合理性。此外,跨领域数据整合面临标准化难题,需协调数学推理、代码生成与社会科学等异构任务的评估框架。
常用场景
经典使用场景
在人工智能多智能体交互研究领域,KAIROS_EVAL数据集通过模拟社会压力场景,为评估大语言模型的鲁棒性提供了标准化测试环境。该数据集构建了包含支持性、对抗性意见的多智能体对话框架,要求模型在同伴影响下保持推理稳定性,典型应用于测量模型在知识推理、常识判断和创造性问题解决中的抗干扰能力。
衍生相关工作
基于该数据集衍生的经典研究包括多智能体信任建模框架、社会影响力量化指标体系以及抗干扰训练范式。这些工作显著推进了群体智能协同决策算法的开发,特别是在构建具有社会意识的AI助手方面产生了系列重要成果,为后续社会机器人的伦理决策研究提供了方法论支持。
数据集最近研究
最新研究方向
在人工智能社会交互研究领域,KAIROS_EVAL数据集正推动多智能体系统中大语言模型鲁棒性的前沿探索。该数据集通过模拟动态社交压力场景,量化模型在同伴影响下的信念稳定性与决策偏差,为研究 conformity bias 和信任机制提供了重要基准。当前研究热点集中于模型在对抗性社会互动中的抗干扰能力优化,以及如何通过多智能体协作增强推理一致性,这对构建具备社会认知能力的AI系统具有深远意义。
以上内容由遇见数据集搜集并总结生成



