five

AgentSense|语言模型评估数据集|社会智能数据集

收藏
arXiv2024-10-25 更新2024-10-29 收录
语言模型评估
社会智能
下载链接:
http://arxiv.org/abs/2410.19346v1
下载链接
链接失效反馈
资源简介:
AgentSense是由复旦大学研究人员创建的一个用于评估语言模型社会智能的基准数据集。该数据集包含1225个多样化的社会场景,这些场景从大量剧本中提取,确保了场景和社交目标的多样性和现实性。数据集的创建过程采用了自下而上的方法,通过提取剧本中的场景模板并合成角色来多样化场景。AgentSense主要用于评估语言模型在复杂社会互动中的目标完成和隐含推理能力,旨在解决语言模型在复杂社交场景中的表现问题。
提供机构:
复旦大学
创建时间:
2024-10-25
AI搜集汇总
数据集介绍
main_image_url
构建方式
AgentSense数据集通过自下而上的方法构建,借鉴了戏剧理论,从大量剧本中提取出1,225个多样化的社交场景。这些场景通过多轮互动进行评估,强调目标完成和隐含推理。数据集的构建包括从剧本中提取场景、提取每个角色的社交目标、确定是否涉及私人信息推理、以及防止数据泄露的模板生成。最终,通过动态生成代理并根据场景约束进行替换,确保了场景的多样性和复杂性。
特点
AgentSense数据集的特点在于其高度多样化和复杂的社交场景,涵盖了从存在目标到成长目标的广泛范围。数据集中的每个参与者都有明确的社交目标和可能的私人信息,强调了在互动中平衡目标完成和隐私保护的重要性。此外,数据集通过多角度评估(自我、他人和第三方)确保了评估的全面性和客观性。
使用方法
使用AgentSense数据集时,研究者可以模拟多轮社交互动,评估语言模型在复杂社交场景中的表现。通过设定每个角色的社交目标和私人信息,研究者可以观察模型在目标完成和隐含推理方面的能力。评估方法包括自我评估、他人评估和第三方模型评估,以及通过多选题评估模型的隐含推理能力。最终,通过计算目标完成和信息推理的平均准确率,得出模型在社交智能方面的综合表现。
背景与挑战
背景概述
AgentSense数据集由复旦大学和字节跳动联合开发,旨在通过互动场景评估语言模型的社会智能。该数据集的核心研究问题是如何在复杂的社会互动中评估大型语言模型(LLMs)的能力。AgentSense的构建基于剧本理论,采用自下而上的方法,从大量剧本中提取出1,225个多样化的社会场景,涵盖从存在目标到成长目标的广泛范围。该数据集的推出填补了现有研究在场景多样性、复杂性和单一视角评估方面的不足,为社会智能的深入研究提供了新的工具和视角。
当前挑战
AgentSense数据集面临的挑战主要集中在两个方面。首先,构建过程中遇到的挑战包括确保场景的多样性和复杂性,以及避免数据泄露。其次,所解决的领域问题挑战在于评估LLMs在复杂社会场景中的表现,特别是高层次的成长需求和私人信息的推理能力。现有研究在静态和非互动测试中未能捕捉到社会互动的动态性,而AgentSense通过多轮互动和隐含推理的评估,揭示了LLMs在复杂社会情境中的局限性。
常用场景
经典使用场景
AgentSense 数据集的经典使用场景主要集中在评估语言模型在复杂社交互动中的社会智能。通过构建多样化的社交场景,该数据集允许研究人员在多轮互动中测试语言模型在实现社交目标和隐含推理方面的能力。例如,在一个家庭聚会或办公室对话的场景中,模型需要模拟角色,完成如寻求原谅、缓解紧张关系或提供反馈等社交目标。
衍生相关工作
AgentSense 数据集的引入催生了一系列相关研究工作,特别是在社交智能评估和语言模型角色扮演领域。例如,有研究利用该数据集开发了新的评估指标,以更全面地衡量模型的社会智能。同时,也有研究探索了如何在不同社交场景中优化模型的表现,以及如何通过多轮互动提升模型的隐含推理能力。这些工作不仅推动了语言模型的发展,也为社交智能研究提供了新的视角和方法。
数据集最近研究
最新研究方向
在人工智能领域,AgentSense数据集的最新研究方向聚焦于通过交互式场景评估语言代理的社会智能。该研究利用戏剧理论,采用自下而上的方法构建了1,225个多样化的社会场景,旨在通过多轮互动评估语言模型在复杂社会情境中的目标完成和隐含推理能力。研究结果表明,尽管大型语言模型在某些方面表现出色,但在处理高层次成长需求和私人信息推理方面仍需改进。这一研究不仅推动了社会智能评估的边界,也为未来开发更智能、更符合人类社会行为模式的语言代理提供了重要参考。
相关研究论文
  • 1
    AgentSense: Benchmarking Social Intelligence of Language Agents through Interactive Scenarios复旦大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

Cultural Dimensions Dataset

该数据集包含了霍夫斯泰德文化维度理论(Hofstede's Cultural Dimensions Theory)的相关数据,涵盖了多个国家和地区的文化维度评分,如权力距离、个人主义与集体主义、男性化与女性化、不确定性规避、长期取向与短期取向等。这些数据有助于研究不同文化背景下的行为模式和价值观。

geerthofstede.com 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录