sotopia-dataset

Hugging Face2025-05-04 更新2025-05-05 收录

下载链接：

https://huggingface.co/datasets/GeminiLight/sotopia-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Sotopia数据集包含个体档案、环境档案、关系档案和环境列表，用于描述个体之间的社会关系和互动环境。

创建时间：

2025-05-02

原始信息汇总

Sotopia Dataset 概述

数据集结构

RelationshipType 枚举

定义代理之间的各种关系类型：
- stranger: 陌生人
- know_by_name: 知道名字
- acquaintance: 熟人
- friend: 朋友
- romantic_relationship: 恋爱关系
- family_member: 家庭成员

AgentProfile 类

存储代理的个人资料详情：
- 基础信息：first_name, last_name, age, occupation, gender, gender_pronoun
- 心理特征：big_five, moral_values, schwartz_personal_values, personality_and_values, decision_making_style, mbti
- 其他信息：public_info, secret, model_id

EnvironmentProfile 类

存储环境配置详情：
- 标识信息：codename, source
- 场景设置：scenario, agent_goals, relationship
- 约束条件：age_constraint, occupation_constraint, agent_constraint

RelationshipProfile 类

存储代理间关系详情：
- 代理标识：agent_1_id, agent_2_id
- 关系类型：relationship
- 背景故事：background_story

EnvironmentList 类

管理环境列表：
- 列表信息：name, environments, agent_index
- 验证规则：确保agent_index长度与environments匹配

技术实现

使用redis_om和pydantic库实现数据存储、检索和验证。
支持通过Redis数据库进行数据持久化操作（保存/查询）。

示例用途

创建代理档案：包含姓名、年龄、职业、心理特征等。
创建环境配置：定义任务场景、代理目标及关系约束。
建立关系档案：记录代理间关系类型及背景故事。
管理环境列表：批量处理环境ID与代理索引的关联。

搜集汇总

数据集介绍

构建方式

Sotopia数据集通过精心设计的类结构构建，涵盖了AgentProfile、EnvironmentProfile、RelationshipProfile和EnvironmentList四大核心模块。AgentProfile类详细记录了代理的姓名、年龄、职业、性别等人口统计学特征，以及大五人格、道德价值观等心理属性；EnvironmentProfile类则聚焦于交互场景的编码、来源、具体情境以及代理目标；RelationshipProfile类专门刻画代理间的关系类型和背景故事；EnvironmentList类负责管理环境列表及其关联代理索引。所有数据均采用redis_om和pydantic库实现高效存储与验证。

特点

该数据集最显著的特点是采用多维度建模方式，将社会交互中的个体特征、环境要素和关系网络进行系统化整合。AgentProfile部分包含16项精细化属性，覆盖从基础身份信息到MBTI性格类型的多层次特征；EnvironmentProfile通过scenario字段实现情境具象化，配合relationship字段精确描述代理间六种关系类型；数据架构支持Redis数据库的快速存取，且通过root_validator确保环境列表与代理索引的长度一致性，体现严谨的数据质量控制。

使用方法

使用该数据集时，首先需通过类构造函数实例化各模块对象：AgentProfile需填充人格特质等属性，EnvironmentProfile需设定场景约束条件，RelationshipProfile需明确关系类型。创建完成后调用save()方法将数据持久化至Redis数据库，后续可通过find()方法配合查询条件实现精准检索。典型应用场景包括：基于agent_goals字段分析目标驱动行为，利用relationship字段研究不同关系类型下的交互模式，或结合big_five与moral_values字段探索人格特质与道德决策的关联。

背景与挑战

背景概述

Sotopia数据集是一个专注于多智能体社会交互模拟的数据集，旨在为人工智能领域提供丰富的社交行为建模资源。该数据集由专业研究团队构建，通过定义复杂的智能体属性、环境场景和关系类型，为研究社交智能体之间的互动行为提供了结构化框架。其核心研究问题聚焦于如何通过精细化的人物设定和环境约束，模拟真实世界中的社会关系动态。数据集采用Redis数据库与Pydantic验证机制，确保了数据存储的高效性和规范性，为人机交互、社交计算等研究领域提供了重要基准。

当前挑战

Sotopia数据集面临的主要挑战体现在两个维度：在领域问题层面，如何准确捕捉社会关系中微妙的心理特征和行为模式是一大难点，特别是当涉及道德价值观、性格特质等抽象概念时；在构建技术层面，确保大量异构数据（如个性化属性、环境约束、关系背景）之间的逻辑一致性需要复杂的验证机制。同时，数据集需要平衡场景设计的开放性与结构化程度，既要保证社交互动的多样性，又要维持实验的可重复性。关系类型定义的粒度选择也面临挑战，过于粗略会丢失社交细节，过于精细则增加标注复杂度。

常用场景

经典使用场景

在社交模拟与人工智能交互领域，sotopia-dataset为研究者提供了一个高度结构化的多智能体社交互动平台。该数据集通过精细定义的AgentProfile和RelationshipType枚举，能够模拟从陌生人到家庭成员等不同关系类型的社交场景，特别适合用于研究复杂社交动态下的人工智能行为模式。其经典使用场景包括构建虚拟社交实验环境，观察不同性格特征、道德价值观的智能体在特定情境下的决策过程。

衍生相关工作

该数据集已催生多个具有影响力的衍生研究。基于其关系类型体系，研究者开发了社交网络传播动力学模型；其人格特征模块启发了人格感知对话系统的创新工作；环境场景参数则被用于研究多智能体协作中的信任建立机制。部分研究团队进一步扩展了原始数据集的道德价值观维度，形成了专门研究伦理决策的计算模型。

数据集最近研究