cmu-lti/sotopia
收藏Hugging Face2024-06-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cmu-lti/sotopia
下载链接
链接失效反馈官方服务:
资源简介:
SOTOPIA数据集是一个用于评估语言代理社交智能的交互式评估数据集。数据集包含两个版本的文件:`sotopia_episodes_v1.csv`和`sotopia_episodes_v1.json`。CSV文件不包含模型信息和奖励,而JSON版本包含所有这些信息。该数据集用于研究语言代理在社交互动中的表现,并已在ICLR 2024会议上发表相关论文。
SOTOPIA数据集是一个用于评估语言代理社交智能的交互式评估数据集。数据集包含两个版本的文件:`sotopia_episodes_v1.csv`和`sotopia_episodes_v1.json`。CSV文件不包含模型信息和奖励,而JSON版本包含所有这些信息。该数据集用于研究语言代理在社交互动中的表现,并已在ICLR 2024会议上发表相关论文。
提供机构:
cmu-lti
原始信息汇总
数据集概述
基本信息
- 许可证: cc-by-sa-4.0
- 语言: 英语
- 名称: sotopia
- 数据量: 1K<n<10K
文件格式
- 包含两个版本的数据文件:
sotopia_episodes_v1.csv: 不包含模型信息和奖励sotopia_episodes_v1.json: 包含所有信息
引用信息
bibtex @inproceedings{zhou2024sotopia, title = {SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents}, author = {Zhou*, Xuhui and Zhu*, Hao and Mathur, Leena and Zhang, Ruohong and Qi, Zhengyang and Yu, Haofei and Morency, Louis-Philippe and Bisk, Yonatan and Fried, Daniel and Neubig, Graham and Sap, Maarten}, journal = {ICLR}, year = {2024}, url = {https://openreview.net/forum?id=mM7VurbA4r}, }
搜集汇总
数据集介绍

构建方式
在社交智能评估领域,SOTOPIA数据集的构建体现了严谨的实证研究范式。该数据集通过精心设计的交互式情景模拟,收集了涵盖多样化社会场景的人类与智能体对话记录。其构建过程融合了预设的社会角色、目标任务与动态环境变量,确保了情景的真实性与复杂性。数据以结构化的JSON格式完整保存了对话序列、参与者模型信息及交互奖励,为分析社会行为提供了多维度、可追溯的原始资料。
特点
SOTOPIA数据集的核心特点在于其专注于语言智能体的社会交互能力评估。数据集囊括了数量可观的交互情景,每个情景均嵌入了丰富的社会规范与潜在冲突。数据记录不仅包含对话文本,还整合了模型响应与奖励信号,支持对社交策略、共情能力及目标达成度的量化分析。这种多要素集成设计,使得该数据集成为研究人机社会动态与智能体行为演进的独特资源。
使用方法
利用SOTOPIA数据集进行研究时,学者可通过其提供的CSV与JSON两种格式访问数据。JSON版本因其包含完整的模型信息与奖励数据,适用于需要深入分析交互过程与性能关联的研究。用户可依据情景设定、角色属性或任务类型对数据进行筛选与重构,进而训练或评估语言模型在复杂社会推理、谈判与协作等方面的能力。该数据集为开发更人性化、社会感知的智能体系统提供了关键的基准测试平台。
背景与挑战
背景概述
在人工智能领域,社会智能作为衡量智能体与人类互动能力的关键维度,长期以来因缺乏标准化评估框架而面临研究瓶颈。2024年,卡内基梅隆大学语言技术研究所等机构联合推出了SOTOPIA数据集,旨在系统评估语言智能体的社会交互能力。该数据集聚焦于模拟复杂社交场景,通过多轮对话任务考察智能体在合作、冲突、谈判等情境中的行为表现,为构建更具人类同理心与情境适应性的智能系统提供了重要基准,推动了人机交互与社会计算领域的实证研究进展。
当前挑战
SOTOPIA数据集致力于解决语言智能体社会智能评估的挑战,其核心在于如何量化智能体在动态社交互动中的表现,包括情感理解、意图推断与道德决策等抽象能力的客观衡量。在构建过程中,研究团队需克服多维度标注的复杂性,确保社交场景的真实性与多样性,同时平衡任务设计的可控性与开放性。此外,数据收集涉及大量人工参与,需保证情境脚本的自然流畅与伦理合规性,这些因素共同构成了数据集开发的技术与实操壁垒。
常用场景
经典使用场景
在人工智能与社交计算领域,SOTOPIA数据集为评估语言代理的社会智能提供了关键基准。其经典使用场景聚焦于模拟复杂社交互动,通过多轮对话任务,测试代理在角色扮演情境中理解、推理和回应社会规范、情感及意图的能力。研究者利用该数据集构建交互式评估框架,系统分析代理在合作、冲突、谈判等多样化社交动态中的表现,从而推动社交智能模型的精细化发展。
解决学术问题
SOTOPIA数据集有效解决了社交智能评估中缺乏标准化、可量化基准的学术难题。传统方法往往依赖静态任务或有限场景,难以捕捉社交互动的动态性与复杂性。该数据集通过结构化社交情境与多维评估指标,如合作性、情感适应性和目标达成度,为衡量语言代理的社会理解与行为生成提供了统一框架。这不仅促进了社交智能研究的可重复性与比较性,还深化了对人机交互中社会认知机制的理论探索。
衍生相关工作
围绕SOTOPIA数据集,已衍生出一系列聚焦社交智能评估的经典研究工作。例如,基于其交互框架开发的增强学习算法,用于优化代理在长期社交任务中的策略稳定性;结合多模态输入的扩展研究,探索非语言线索对社会理解的影响;以及针对数据集本身进行的偏差分析与泛化性改进,推动更公平、鲁棒的评估标准建立。这些工作共同丰富了社交计算的理论体系,并为后续大规模社交智能基准的构建奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成



