MIRAGE

Name: MIRAGE
Creator: 复旦大学大数据研究院, 复旦大学计算机科学技术学院, 小红书公司
Published: 2025-01-03 14:07:48
License: 暂无描述

arXiv2025-01-03 更新2025-01-07 收录

下载链接：

https://github.com/lime728/MIRAGE

下载链接

链接失效反馈

官方服务：

资源简介：

MIRAGE数据集由复旦大学大数据研究院和小红书公司联合创建，旨在评估大型语言模型在复杂社交互动环境中的表现。该数据集包含8个独特的剧本，每个剧本具有不同的主题和风格，提供了多样化的模拟环境。数据集的内容包括详细的背景故事和复杂的人际关系网络，支持每个角色的沉浸式角色扮演。数据集的应用领域主要集中在评估模型在复杂社交场景中的表现，旨在解决模型在模拟人类高级行为时的挑战。

The MIRAGE dataset was co-developed by the Institute of Big Data at Fudan University and Xiaohongshu, aiming to evaluate the performance of large language models (LLMs) in complex social interaction environments. This dataset comprises 8 distinct scripts, each with unique themes and styles, offering a diverse range of simulated environments. The dataset features detailed background narratives and intricate interpersonal relationship networks, enabling immersive role-playing for every character. Its primary application scope focuses on evaluating model performance in complex social scenarios, with the objective of addressing the challenges that models face when simulating advanced human behaviors.

提供机构：

复旦大学大数据研究院, 复旦大学计算机科学技术学院, 小红书公司

创建时间：

2025-01-03

原始信息汇总

MIRAGE 数据集概述

数据集简介

MIRAGE（Multiverse Interactive Role-play Ability General Evaluation）是一个用于评估大型语言模型（LLMs）在复杂角色扮演游戏（如谋杀悬疑游戏）中行为表现的模拟环境。该数据集提供了8个不同的剧本和4种评估方法，用于测试LLMs在复杂社交互动环境中的表现。

数据集内容

剧本信息

数据集包含8个剧本，每个剧本具有不同的结构、类型、结局、阶段数、角色数、线索数以及中英文字数。具体信息如下：

ID	剧本名称	结构	类型	结局	阶段数	角色数	线索数	中文字数	英文字数
0	Bride in filial dress	单一	正统	封闭	1	10	39	45,475	27,503
1	The Eastern Star cruise ship	单一	正统	开放	1	5	42	5,619	3,039
2	Night at the Museum	单一	非正统	封闭	1	6	82	13,849	6,480
3	Li Chuan strange talk book	单一	非正统	开放	1	7	14	79,012	45,666
4	The final performance of a big star	多重	正统	封闭	7	2	17	11,288	5,794
5	Raging Sea of Rest Life	多重	正统	开放	2	6	27	18,443	6,804
6	Article 22 School Rules	多重	非正统	封闭	5	7	17	91,532	41,728
7	Fox Hotel	多重	非正统	开放	2	7	46	107,057	62,224

评估方法

数据集提供了4种评估方法：

TII（Trust Inclination Index）：信任倾向指数，结合了怀疑和信任分数。
CIC（Clue Investigation Capability）：线索调查能力，衡量LLMs在游戏回合中调查线索的能力。
ICI（Interactivity Capability Index）：互动能力指数，评估LLMs的整体互动能力。
SCI（Script Compliance Index）：剧本遵从指数，评估LLMs在角色扮演中的剧本遵从度。

实验结果

数据集提供了多个模型在MIRAGE场景中的表现结果，具体如下：

模型	Victory	TII	CIC	ICI	SCI	Overall
GPT-3.5	29.11	47.13	27.46	70.06	49.10	44.57
GPT-4	34.69	76.32	19.01	76.54	50.42	51.40
GPT-4o	47.01	78.69	35.92	76.80	51.29	57.94
Qwen-2-7B	51.81	75.78	18.66	74.92	50.57	54.35
GLM-4-9B	31.89	53.85	20.07	71.60	48.13	45.11

快速开始

安装依赖： bash pip install -r requirements.txt
在config.py中添加API URL和API Key。
启动模拟： bash bash run.sh

引用

@article{cai2025mirage, title={MIRAGE: Exploring How Large Language Models Perform in Complex Social Interactive Environments}, author={Cai Yin, Gu Zhouhong, Du Zhaohan, Ye Zheyu, Cao Shaosheng, Xu Yiqian, Feng Hongwei, Chen Ping}, journal={arXiv preprint arXiv:2501.01652}, year={2025} }

搜集汇总

数据集介绍

构建方式

MIRAGE数据集的构建基于复杂的谋杀谜案游戏，旨在评估大型语言模型（LLMs）在模拟高级人类行为方面的能力。数据集包含八个精心设计的剧本，每个剧本涵盖不同的主题和风格，提供了丰富的模拟环境。每个剧本分为六个主要部分：角色故事、角色剧本、角色关系、角色表现、角色目标和其他能力。通过这种结构化的方式，MIRAGE为LLMs提供了一个沉浸式的角色扮演环境，使其能够在复杂的社交互动中展示其推理、沟通和决策能力。

特点

MIRAGE数据集的特点在于其多样性和复杂性。每个剧本都包含详细的背景故事和复杂的人际关系网络，使得角色扮演更加真实和沉浸。此外，MIRAGE引入了四个客观评估指标：信任倾向指数（TII）、线索调查能力（CIC）、互动能力指数（ICI）和剧本遵从指数（SCI），用于全面评估LLMs在模拟中的表现。这些指标不仅衡量了LLMs在信息收集和推理方面的能力，还评估了其在角色扮演中的表现和对剧本的遵从程度。

使用方法

MIRAGE数据集的使用方法主要包括三个主要阶段：开放对话、环境互动和谋杀投票。在开放对话阶段，玩家根据剧本进行角色扮演，并通过对话推进剧情。在环境互动阶段，玩家可以选择询问或调查，以获取更多线索。最后，在谋杀投票阶段，玩家根据收集到的线索投票选出他们认为的凶手。通过这些阶段，MIRAGE能够全面评估LLMs在复杂社交环境中的表现，并为研究人员提供了一个有效的工具来比较不同LLMs的能力。

背景与挑战

背景概述

MIRAGE（Multiverse Interactive Role-play Ability General Evaluation）是由复旦大学大数据学院、上海数据科学重点实验室以及小红书公司等机构的研究团队于2025年提出的一个用于评估大语言模型（LLMs）在复杂社交互动环境中表现的数据集。该数据集通过模拟谋杀推理游戏，旨在评估LLMs在角色扮演、信息推理、信任动态和脚本遵循等方面的能力。MIRAGE包含八个精心设计的剧本，涵盖多种主题和风格，提供了丰富的社交互动场景。通过引入信任倾向指数（TII）、线索调查能力（CIC）、互动能力指数（ICI）和脚本遵循指数（SCI）等评估指标，MIRAGE为LLMs在复杂社交环境中的表现提供了全面的评估框架。该数据集的推出填补了现有研究中缺乏对LLMs社交能力系统性评估的空白，并为LLMs在社交模拟领域的进一步发展提供了重要参考。

当前挑战

MIRAGE数据集在构建和应用过程中面临多重挑战。首先，评估LLMs在复杂社交环境中的表现需要设计高度逼真的互动场景，这对剧本的多样性和复杂性提出了极高要求。其次，LLMs在处理开放性问题时往往表现出不稳定性，尤其是在涉及信任动态和线索推理的复杂情境中，模型的表现容易受到上下文长度和推理深度的限制。此外，MIRAGE的评估指标（如TII和ICI）依赖于对LLMs输出的主观评分，这可能导致评估结果的偏差。在数据构建过程中，如何平衡剧本的复杂性与LLMs的上下文处理能力也是一个关键挑战。最后，由于MIRAGE涉及敏感主题（如谋杀和欺骗），如何在确保数据安全性的同时避免模型拒绝回答或生成不当内容，也是需要解决的重要问题。

常用场景

经典使用场景

MIRAGE数据集通过模拟复杂的社交互动环境，特别是谋杀谜案游戏，评估大型语言模型（LLMs）在角色扮演中的表现。该数据集包含八个精心设计的剧本，涵盖多样化的主题和风格，提供了丰富的模拟场景。通过信任倾向指数（TII）、线索调查能力（CIC）、互动能力指数（ICI）和剧本遵循指数（SCI）等四个评估指标，MIRAGE能够全面衡量LLMs在复杂社交互动中的表现。

实际应用

MIRAGE数据集在实际应用中具有广泛的前景。它可以用于开发更智能的虚拟助手、社交机器人和多代理系统，这些系统需要在复杂的社交环境中进行有效的沟通和决策。此外，MIRAGE还可以用于教育和培训领域，帮助学习者通过模拟游戏提升推理和社交技能。在游戏开发中，MIRAGE的评估框架可以为设计更具互动性和挑战性的角色扮演游戏提供参考。

衍生相关工作

MIRAGE数据集衍生了一系列相关研究，特别是在LLMs的社交能力评估和角色扮演领域。例如，基于MIRAGE的评估框架，研究者开发了更复杂的社交模拟环境，如Sotopia和Lyfe Agents，这些工作进一步扩展了LLMs在自主社交代理中的应用。此外，MIRAGE的评估方法也被应用于其他类型的社交游戏，如狼人杀和阿瓦隆，推动了LLMs在多样化社交场景中的表现优化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集