five

MinecraftStructuredDialogueCorpus

收藏
Hugging Face2025-04-28 更新2025-04-29 收录
下载链接:
https://huggingface.co/datasets/linagora/MinecraftStructuredDialogueCorpus
下载链接
链接失效反馈
官方服务:
资源简介:
Minecraft结构化对话语料库(MSDC)是Minecraft对话语料库(MDC)的语篇注释版本,包含了在模拟的3D Minecraft格子中,两个人通过聊天窗口进行的自然语言对话。对话中的角色分为建筑师和建造者。建筑师展示一个由彩色块构成的结构图像,并指导建造者通过聊天窗口中的指令在格子上重建该结构。该语料库的特点是具有完整的、情境化的语篇结构,并按照情境化话语表征理论进行注释。语料库由话语专家和学生进行注释,包括基本话语单位(EDUs)和建造者动作的基本事件单位(EEUs)。
创建时间:
2025-04-22
原始信息汇总

Minecraft Structured Dialogue Corpus (MSDC) 数据集概述

基本信息

  • 许可证: CC0 1.0
  • 语言: 英语 (en)

数据集描述

MSDC是基于Minecraft Dialogue Corpus (MDC)的语篇标注版本,采用情境化语篇表示理论(Situated Discourse Representation Theory)风格标注。

数据收集场景

  • 参与者通过模拟3D Minecraft网格中的聊天窗口进行自然语言对话
  • 角色分配:
    • Architect: 查看彩色积木结构图像并给出指令
    • Builder: 根据指令在网格上重建结构
  • 对话内容包括:
    • 语言交流轮次
    • Builder动作的文本表示(如"place orange 2 1 -1")

标注信息

  • 由语篇专家和学生团队标注:
    • 将语言轮次手工分割为基本语篇单元(EDUs)
    • 每个Builder动作轮次视为单个基本事件单元(EEUs)
  • 原始MDC对话中除7个外全部被标注
  • 保留原始MDC划分,仅从Test集中提取少量开发集用于Llamipa语篇解析器开发

数据集统计

指标 Train Val Test Dev Total
对话数量 307 100 101 32 540
EDU数量 9616 3297 3009 1128 17050
EEU数量 6669 2240 2006 732 11647
关系实例数量 19598 6681 6018 2232 34529

引用信息

推荐引用文献: Thompson, K., Hunter, J., & Asher, N. (2024). Discourse Structure for the Minecraft Corpus. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024) (pp. 4957-4967).

bibtex @inproceedings{thompson-etal-2024-discourse, title = "Discourse Structure for the {M}inecraft Corpus", author = "Thompson, Kate and Hunter, Julie and Asher, Nicholas", booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)", year = "2024", pages = "4957--4967" }

致谢

数据集开发获得以下项目支持:

  • 法国ANITI人工智能研究所
  • ANR项目COCOBOTS (ANR-21-FAI2-0005)
  • ANR/DGA项目DISCUTER (ANR21-ASIA-0005)
  • 法国Occitanie大区COCOPIL "Graine"项目
搜集汇总
数据集介绍
main_image_url
构建方式
Minecraft结构化对话语料库(MSDC)是基于《Minecraft对话语料库(MDC)》进行深度标注的衍生版本,采用情境化话语表征理论框架构建。数据采集过程中,参与者被分为建筑师和建造者角色,在模拟的3D网格环境中通过文字聊天协作完成建筑任务。专业标注团队对原始对话进行了精细化处理,将语言轮次手工切分为基本话语单元(EDUs),并将建造者的每个动作转化为独立的基本事件单元(EEUs),最终形成包含540组对话、逾3.4万条关系实例的标注体系。
特点
该语料库的显著特征体现在其双重模态的数据结构上,既包含自然语言对话的时序流转,又完整记录了虚拟环境中的空间操作序列。每个对话事件都严格遵循角色分工的交互范式,建筑师通过语言指令引导建造者完成方块堆叠,这种设计使得数据集同时具备语言行为和物理行为的对应关系。标注层面采用情境化话语表征理论,不仅标注表层对话结构,还深入揭示了话语间的逻辑关联,为研究人机交互中的多模态认知提供了理想样本。
使用方法
研究者可通过HuggingFace平台获取该语料库的标准分割版本,包含训练集(307组)、验证集(100组)和测试集(101组)。数据采用JSON格式存储,每个对话实例均包含角色标注的话语单元、空间操作事件及其层级关系。该资源特别适用于话语解析模型训练,如Llamipa话语分析器的开发,也可支持多模态对话系统、指令理解等NLP任务的基准测试。使用时应遵循CC0-1.0许可协议,并引用原始论文以尊重学术规范。
背景与挑战
背景概述
Minecraft Structured Dialogue Corpus (MSDC) 是基于 Minecraft Dialogue Corpus (MDC) 构建的语篇标注数据集,由 Julia Hockenmaier 实验室于2019年首次创建,并于2024年由 Kate Thompson 等人进一步扩展。该数据集旨在通过自然语言对话探索虚拟环境中的协作交流问题,采用情境化语篇表征理论(Situated Discourse Representation Theory)对对话结构进行标注。数据集包含建筑师与建造者在 Minecraft 虚拟网格中的协作对话,通过语言学标注和动作事件单元的划分,为计算语言学和人工智能领域提供了研究多模态交互与语篇结构的宝贵资源。
当前挑战
MSDC 面临的挑战主要集中在两个方面:一是领域问题的复杂性,即如何准确建模虚拟环境中基于自然语言的协作任务,涉及多模态信息整合与意图理解;二是构建过程中的技术难题,包括对非结构化对话的手动语篇分割、动作事件的规范化表示,以及保持原始数据集划分的同时进行有效标注。此外,数据集中存在少量未标注对话,对模型的泛化能力提出了更高要求。
常用场景
经典使用场景
在自然语言处理领域,Minecraft Structured Dialogue Corpus (MSDC) 数据集为研究结构化对话系统提供了重要资源。该数据集通过模拟建筑师与建造者之间的协作任务,记录了完整的对话流程及动作序列,为分析任务导向型对话的语义结构和话语关系奠定了坚实基础。其独特的标注体系,特别是基于情境话语表征理论的标注方法,使得研究者能够深入探究对话中的指代消解、话语连贯性等核心问题。
实际应用
在实际应用层面,MSDC数据集对智能助手和协作机器人的开发具有显著价值。数据集模拟的真实协作场景,为训练系统理解复杂指令、预测用户行为提供了理想测试平台。在虚拟教学环境中,基于该数据集开发的系统能够更准确地指导学习者完成空间建构任务。工业领域的远程协作系统也可借鉴其对话模式,优化技术人员与现场操作员之间的沟通效率。
衍生相关工作
围绕MSDC数据集已产生一系列重要研究成果,最具代表性的是Llamipa话语解析器的开发。该解析器利用数据集的精细标注,实现了对话语结构的自动分析。多项研究进一步探索了基于该数据集的话语关系分类、对话状态跟踪等任务。这些工作不仅推动了计算话语理论的发展,也为构建更智能的人机交互系统提供了方法论指导。数据集独特的标注框架还启发了其他领域语料库的构建标准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作