cmu-lti/sotopia

Name: cmu-lti/sotopia
Creator: cmu-lti
Published: 2024-06-17 20:48:05
License: 暂无描述

Hugging Face2024-06-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/cmu-lti/sotopia

下载链接

链接失效反馈

官方服务：

资源简介：

SOTOPIA数据集是一个用于评估语言代理社交智能的交互式评估数据集。数据集包含两个版本的文件：`sotopia_episodes_v1.csv`和`sotopia_episodes_v1.json`。CSV文件不包含模型信息和奖励，而JSON版本包含所有这些信息。该数据集用于研究语言代理在社交互动中的表现，并已在ICLR 2024会议上发表相关论文。

提供机构：

cmu-lti

原始信息汇总

数据集概述

基本信息

许可证: cc-by-sa-4.0
语言: 英语
名称: sotopia
数据量: 1K<n<10K

文件格式

包含两个版本的数据文件：
- sotopia_episodes_v1.csv: 不包含模型信息和奖励
- sotopia_episodes_v1.json: 包含所有信息

引用信息

bibtex @inproceedings{zhou2024sotopia, title = {SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents}, author = {Zhou*, Xuhui and Zhu*, Hao and Mathur, Leena and Zhang, Ruohong and Qi, Zhengyang and Yu, Haofei and Morency, Louis-Philippe and Bisk, Yonatan and Fried, Daniel and Neubig, Graham and Sap, Maarten}, journal = {ICLR}, year = {2024}, url = {https://openreview.net/forum?id=mM7VurbA4r}, }

搜集汇总

数据集介绍

构建方式

在社交智能评估领域，SOTOPIA数据集的构建体现了严谨的实证研究范式。该数据集通过精心设计的交互式情景模拟，收集了涵盖多样化社会场景的人类与智能体对话记录。其构建过程融合了预设的社会角色、目标任务与动态环境变量，确保了情景的真实性与复杂性。数据以结构化的JSON格式完整保存了对话序列、参与者模型信息及交互奖励，为分析社会行为提供了多维度、可追溯的原始资料。

特点

SOTOPIA数据集的核心特点在于其专注于语言智能体的社会交互能力评估。数据集囊括了数量可观的交互情景，每个情景均嵌入了丰富的社会规范与潜在冲突。数据记录不仅包含对话文本，还整合了模型响应与奖励信号，支持对社交策略、共情能力及目标达成度的量化分析。这种多要素集成设计，使得该数据集成为研究人机社会动态与智能体行为演进的独特资源。

使用方法

利用SOTOPIA数据集进行研究时，学者可通过其提供的CSV与JSON两种格式访问数据。JSON版本因其包含完整的模型信息与奖励数据，适用于需要深入分析交互过程与性能关联的研究。用户可依据情景设定、角色属性或任务类型对数据进行筛选与重构，进而训练或评估语言模型在复杂社会推理、谈判与协作等方面的能力。该数据集为开发更人性化、社会感知的智能体系统提供了关键的基准测试平台。

背景与挑战

背景概述

在人工智能领域，社会智能作为衡量智能体与人类互动能力的关键维度，长期以来因缺乏标准化评估框架而面临研究瓶颈。2024年，卡内基梅隆大学语言技术研究所等机构联合推出了SOTOPIA数据集，旨在系统评估语言智能体的社会交互能力。该数据集聚焦于模拟复杂社交场景，通过多轮对话任务考察智能体在合作、冲突、谈判等情境中的行为表现，为构建更具人类同理心与情境适应性的智能系统提供了重要基准，推动了人机交互与社会计算领域的实证研究进展。

当前挑战

SOTOPIA数据集致力于解决语言智能体社会智能评估的挑战，其核心在于如何量化智能体在动态社交互动中的表现，包括情感理解、意图推断与道德决策等抽象能力的客观衡量。在构建过程中，研究团队需克服多维度标注的复杂性，确保社交场景的真实性与多样性，同时平衡任务设计的可控性与开放性。此外，数据收集涉及大量人工参与，需保证情境脚本的自然流畅与伦理合规性，这些因素共同构成了数据集开发的技术与实操壁垒。

常用场景

经典使用场景

在人工智能与社交计算领域，SOTOPIA数据集为评估语言代理的社会智能提供了关键基准。其经典使用场景聚焦于模拟复杂社交互动，通过多轮对话任务，测试代理在角色扮演情境中理解、推理和回应社会规范、情感及意图的能力。研究者利用该数据集构建交互式评估框架，系统分析代理在合作、冲突、谈判等多样化社交动态中的表现，从而推动社交智能模型的精细化发展。

解决学术问题

SOTOPIA数据集有效解决了社交智能评估中缺乏标准化、可量化基准的学术难题。传统方法往往依赖静态任务或有限场景，难以捕捉社交互动的动态性与复杂性。该数据集通过结构化社交情境与多维评估指标，如合作性、情感适应性和目标达成度，为衡量语言代理的社会理解与行为生成提供了统一框架。这不仅促进了社交智能研究的可重复性与比较性，还深化了对人机交互中社会认知机制的理论探索。

衍生相关工作

围绕SOTOPIA数据集，已衍生出一系列聚焦社交智能评估的经典研究工作。例如，基于其交互框架开发的增强学习算法，用于优化代理在长期社交任务中的策略稳定性；结合多模态输入的扩展研究，探索非语言线索对社会理解的影响；以及针对数据集本身进行的偏差分析与泛化性改进，推动更公平、鲁棒的评估标准建立。这些工作共同丰富了社交计算的理论体系，并为后续大规模社交智能基准的构建奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集