Minecraft Structured Dialogue Corpus
收藏github2024-05-20 更新2024-05-31 收录
下载链接:
https://github.com/linagora-labs/MinecraftStucturedDialogueCorpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含Minecraft游戏中的结构化对话语料,用于研究和分析对话结构。数据集详细统计了对话数量、EDUs(基本话语单位)、关系实例等,并按类型进行了细分。
This dataset comprises structured dialogue corpora from the game Minecraft, designed for the research and analysis of dialogue structures. It provides detailed statistics on the number of dialogues, EDUs (Elementary Discourse Units), instances of relations, and is categorized by type.
创建时间:
2024-03-29
原始信息汇总
Minecraft Structured Dialogue Corpus 数据集概述
数据集统计信息
总体统计
| Train+Val | Test | Total | |
|---|---|---|---|
| No. Dialogues | 407 | 133 | 540 |
| No. EDUs | 17135 | 5402 | 22537 |
| No. EDUs (squished) | 4687 | 1473 | 6160 |
| No. Relation instances | 26279 | 8250 | 34529 |
| No. Multi-parent DUs | 4789 | 1476 | 6265 |
关系类型和端点类型统计
正向关系
| Lin-Lin | Lin-NL | NL-Lin | NL-NL | Total | |
|---|---|---|---|---|---|
| Elaboration | 4076 | 0 | 0 | 0 | 4076 |
| Acknowledgement | 1814 | 0 | 2736 | 0 | 4550 |
| Continuation | 2029 | 0 | 0 | 0 | 2029 |
| Contrast | 398 | 0 | 0 | 0 | 398 |
| Correction | 230 | 0 | 964 | 968 | 2162 |
| Result | 1944 | 6015 | 2369 | 0 | 10418 |
| Comment | 1512 | 0 | 164 | 0 | 1676 |
| Question-answer_pair | 1933 | 0 | 0 | 0 | 1933 |
| Narration | 4455 | 0 | 0 | 0 | 4455 |
| Clarification_question | 960 | 0 | 0 | 0 | 960 |
| Confirmation_question | 43 | 0 | 956 | 0 | 999 |
| Q-Elab | 229 | 0 | 0 | 0 | 229 |
| Explanation | 108 | 0 | 0 | 0 | 108 |
| Alternation | 173 | 0 | 0 | 0 | 173 |
| Conditional | 67 | 0 | 0 | 0 | 67 |
| Sequence | 0 | 38 | 0 | 0 | 38 |
反向关系
| Lin-Lin | Lin-NL | NL-Lin | NL-NL | Total | |
|---|---|---|---|---|---|
| Comment | 242 | 0 | 0 | 0 | 242 |
| Conditional | 16 | 0 | 0 | 0 | 16 |
以上信息为Minecraft Structured Dialogue Corpus数据集的关键统计数据。
搜集汇总
数据集介绍

构建方式
Minecraft Structured Dialogue Corpus通过精心设计的标注流程构建,涵盖了407个训练和验证对话以及133个测试对话,总计540个对话。每个对话被细分为多个EDU(基本话语单元),并进一步压缩为更简洁的形式。数据集不仅包含语言单元(Lin),还纳入了非语言单元(NL),如动作指令,形成了丰富的关系实例。这些关系实例通过多种关系类型进行标注,如阐述、确认、结果等,确保了数据集在对话结构解析中的全面性和多样性。
特点
该数据集的显著特点在于其结构化的对话标注,不仅涵盖了语言单元,还引入了非语言单元,如动作指令,增强了数据集的多样性和实用性。此外,数据集中的关系类型丰富,包括前向和后向关系,如阐述、确认、结果等,为对话解析提供了多维度的训练数据。数据集还提供了自然语言表示的动作格式,便于研究人员进行不同层次的分析和应用。
使用方法
使用Minecraft Structured Dialogue Corpus时,研究人员可以通过提供的脚本和代码进行数据处理和模型训练。首先,利用`action_format.py`脚本将动作指令转换为自然语言表示。接着,按照提供的顺序运行`bert_finetune.ipynb`、`bert_linear.ipynb`、`bert_multitask.ipynb`和`bert_multitask_test.ipynb`笔记本,以复现和评估BertLine解析器的效果。这些步骤确保了数据集的高效利用和模型性能的准确评估。
背景与挑战
背景概述
Minecraft Structured Dialogue Corpus(Minecraft结构化对话语料库)是由相关研究人员在2024年LREC会议上提出的一个重要数据集,旨在探索和分析《Minecraft》游戏中的对话结构。该数据集的核心研究问题集中在对话单元(EDU)及其关系类型的标注上,特别是如何通过结构化的方式捕捉玩家在游戏中的互动行为。该数据集的创建不仅为对话分析领域提供了新的研究视角,还为《Minecraft》游戏中的自然语言处理任务提供了丰富的资源,推动了相关领域的技术进步。
当前挑战
Minecraft Structured Dialogue Corpus在构建过程中面临了多项挑战。首先,如何准确标注对话单元(EDU)及其关系类型,尤其是在涉及非语言单元(NL)时,确保标注的一致性和准确性是一个复杂的问题。其次,数据集中包含了大量的多父节点对话单元(Multi-parent DUs),这增加了关系解析的难度。此外,如何将游戏中的构建动作(Builder Action)与自然语言表达进行有效映射,并确保其在不同任务中的可扩展性,也是该数据集面临的一个重要挑战。
常用场景
经典使用场景
Minecraft Structured Dialogue Corpus 数据集的经典使用场景主要集中在对话结构解析和语篇分析领域。该数据集通过标注对话中的基本话语单元(EDUs)及其关系,为研究者提供了一个丰富的资源,用于训练和评估对话解析模型。特别是在多模态对话系统中,该数据集能够帮助模型理解对话中的结构化信息,从而提升对话系统的自然性和连贯性。
解决学术问题
该数据集解决了对话系统中对话结构解析的关键学术问题,特别是在多模态对话中,如何有效识别和解析对话中的基本话语单元及其关系。通过提供详细的标注数据,该数据集为研究者提供了一个标准化的基准,用于评估和改进对话解析算法。这不仅推动了对话系统领域的研究进展,还为多模态交互提供了新的研究方向。
衍生相关工作
基于Minecraft Structured Dialogue Corpus 数据集,研究者们已经开展了一系列相关工作,特别是在对话解析和多模态交互领域。例如,BertLine解析器的开发和应用,展示了如何利用该数据集进行对话结构的解析和建模。此外,该数据集还激发了在多模态对话系统中对非语言单元(如动作和事件)的深入研究,推动了对话系统在游戏和虚拟环境中的实际应用。
以上内容由遇见数据集搜集并总结生成



