stanfordnlp/mutual_friends

Name: stanfordnlp/mutual_friends
Creator: stanfordnlp
Published: 2024-01-18 11:09:58
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/stanfordnlp/mutual_friends

下载链接

链接失效反馈

官方服务：

资源简介：

MutualFriends数据集旨在构建能够通过自然语言交换信息并基于结构化知识库进行推理的系统。在该任务中，两个代理各自拥有一个包含朋友列表的私有知识库，并通过聊天找到他们唯一的共同朋友。数据集包含8967个训练对话、1083个验证对话和1107个测试对话。每个对话实例包括唯一的ID、场景ID、场景属性、知识库描述、参与对话的代理、对话结果奖励以及对话事件的详细信息。

提供机构：

stanfordnlp

原始信息汇总

数据集概述

名称: MutualFriends

语言: 英语 (en)

许可证: 未知

多语言性: 单语

大小: 10K<n<100K

源数据: 原始数据

任务类别:

文本生成
填充掩码

任务ID: 对话建模

论文代码ID: mutualfriends

美观名称: MutualFriends

数据集结构

数据实例

数据集中的一个实例包括以下字段：

uuid: 示例ID
scenario_uuid: 场景ID
scenario_alphas: 场景阿尔法值
scenario_attributes: 场景中的所有属性
scenario_kbs: 描述两个用户数据库中的人的列表
agents: 对话中的两个用户
outcome_reward: 当前对话的奖励
events: 描述对话的词典

数据字段

uuid: 示例ID
scenario_uuid: 场景ID
scenario_alphas: 场景阿尔法值
scenario_attributes: 场景中的所有属性
- unique: 布尔值
- value_type: 属性的代码/类型
- name: 属性名称
scenario_kbs: 描述两个用户数据库中的人的列表
agents: 对话中的两个用户
outcome_reward: 当前对话的奖励
events: 描述对话的词典
- actions: 转弯类型
- agents: 谁在说话
- data_messages: 交换的字符串
- data_selects: 用户的选择
- start_times: 始终为-1
- times: 发送时间

数据分割

训练集: 8967对话
验证集: 1083对话
测试集: 1107对话

数据集创建

源数据

数据集为原始数据

注释

注释创建者: 众包

个人和敏感信息

信息缺失

使用数据的考虑

社会影响

信息缺失

偏见讨论

信息缺失

其他已知限制

信息缺失

附加信息

数据集管理员

信息缺失

许可信息

信息缺失

引用信息

@inproceedings{he-etal-2017-learning, title = "Learning Symmetric Collaborative Dialogue Agents with Dynamic Knowledge Graph Embeddings", author = "He, He and Balakrishnan, Anusha and Eric, Mihail and Liang, Percy", booktitle = "Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = jul, year = "2017", address = "Vancouver, Canada", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/P17-1162", doi = "10.18653/v1/P17-1162", pages = "1766--1776", abstract = "We study a extit{symmetric collaborative dialogue} setting in which two agents, each with private knowledge, must strategically communicate to achieve a common goal. The open-ended dialogue state in this setting poses new challenges for existing dialogue systems. We collected a dataset of 11K human-human dialogues, which exhibits interesting lexical, semantic, and strategic elements. To model both structured knowledge and unstructured language, we propose a neural model with dynamic knowledge graph embeddings that evolve as the dialogue progresses. Automatic and human evaluations show that our model is both more effective at achieving the goal and more human-like than baseline neural and rule-based models.", }

贡献者

感谢@VictorSanh添加此数据集。

搜集汇总

数据集介绍

构建方式

在对话系统研究领域，构建能够模拟真实人类协作交互的数据集至关重要。MutualFriends数据集的构建依托于众包平台，通过设计结构化任务引导参与者进行自然语言对话。具体而言，每位参与者被赋予包含朋友属性列表的私有知识库，任务目标是通过对话协商，共同识别出唯一共享的朋友。数据集共收录了超过一万条人类对话记录，涵盖了丰富的对话策略与语言表达，为研究对称协作对话提供了高质量的语料基础。

特点

该数据集的核心特征在于其对称协作的对话结构，每个对话实例均包含两位参与者的私有知识库与完整的交互事件序列。数据结构设计精细，不仅记录了对话的文本内容，还完整保留了知识库的属性信息、参与者的选择行为以及时间戳等元数据。这种多层次的数据组织方式，使得数据集能够支持对对话策略、知识推理以及语言生成等多维度任务的深入分析，为构建智能协作代理提供了全面的实验平台。

使用方法

在自然语言处理研究中，MutualFriends数据集主要用于训练和评估协作对话模型。研究者可加载数据后，通过解析`scenario_kbs`字段获取参与者的知识背景，并利用`events`中的对话序列进行模型训练。典型应用包括端到端的对话生成、基于知识图谱的推理以及强化学习策略优化。数据已预先划分为训练、验证和测试集，便于进行模型开发与性能评估，相关代码和基准可在项目主页与Codalab平台获取。

背景与挑战

背景概述

在自然语言处理领域，构建能够通过自然语言交换信息并基于结构化知识库进行推理的协作系统，一直是人机交互研究的核心目标。MutualFriends数据集由斯坦福大学自然语言处理研究团队于2017年创建，并发表于ACL会议，旨在推动对称协作对话代理的研究。该数据集模拟了两位智能体各自拥有包含朋友属性（如学校、公司、位置偏好）的私有知识库，通过对话共同寻找唯一共同好友的任务场景。其设计不仅为对话建模提供了丰富的结构化知识基础，还促进了动态知识图谱嵌入等先进方法的发展，对提升对话系统的战略沟通与推理能力产生了深远影响。

当前挑战

MutualFriends数据集所针对的对称协作对话任务，其核心挑战在于如何让智能体在开放式的对话状态中，有效整合私有结构化知识并进行战略性的信息交换，以达成共同目标。这要求模型不仅需理解自然语言的语义，还需具备动态推理与决策能力。在数据集构建过程中，挑战主要源于通过众包方式收集高质量、多样化的人类对话，确保对话既涵盖丰富的词汇与语义变化，又保持任务逻辑的一致性与复杂性，同时需精细设计知识库结构以支持可扩展的评估框架。

常用场景

经典使用场景

在对话系统与多智能体协作的研究领域，MutualFriends数据集为探索对称协作对话提供了经典场景。该数据集模拟两位智能体各自拥有包含朋友属性信息的私有知识库，通过自然语言交流以识别唯一的共同朋友。这一设置要求模型不仅理解结构化知识，还需进行动态推理与策略性沟通，从而成为评估对话系统协作能力的基准平台。

实际应用

在实际应用层面，MutualFriends所模拟的场景与客服协作、医疗咨询等专业领域高度契合。例如，在跨机构数据共享场景中，各方需通过有限信息交换达成共识，而该数据集训练的模型可优化对话效率与准确性。此外，其框架也为开发教育辅助工具或智能谈判系统提供了可扩展的范式。

衍生相关工作

基于MutualFriends数据集，学术界衍生出一系列经典研究工作。例如，原论文提出的动态知识图谱嵌入模型为后续神经对话系统设立了新标准；后续研究则进一步探索了强化学习在对话策略优化中的应用。这些工作不仅深化了对协作机制的理解，也催生了多模态对话、跨领域知识迁移等相关分支的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集