five

Minecraft Structured Dialogue Corpus

收藏
github2024-05-20 更新2024-05-31 收录
下载链接:
https://github.com/linagora-labs/MinecraftStucturedDialogueCorpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含Minecraft游戏中的结构化对话语料,用于研究和分析对话结构。数据集详细统计了对话数量、EDUs(基本话语单位)、关系实例等,并按类型进行了细分。

This dataset comprises structured dialogue corpora from the game Minecraft, designed for the research and analysis of dialogue structures. It provides detailed statistics on the number of dialogues, EDUs (Elementary Discourse Units), instances of relations, and is categorized by type.
创建时间:
2024-03-29
原始信息汇总

Minecraft Structured Dialogue Corpus 数据集概述

数据集统计信息

总体统计

Train+Val Test Total
No. Dialogues 407 133 540
No. EDUs 17135 5402 22537
No. EDUs (squished) 4687 1473 6160
No. Relation instances 26279 8250 34529
No. Multi-parent DUs 4789 1476 6265

关系类型和端点类型统计

正向关系

Lin-Lin Lin-NL NL-Lin NL-NL Total
Elaboration 4076 0 0 0 4076
Acknowledgement 1814 0 2736 0 4550
Continuation 2029 0 0 0 2029
Contrast 398 0 0 0 398
Correction 230 0 964 968 2162
Result 1944 6015 2369 0 10418
Comment 1512 0 164 0 1676
Question-answer_pair 1933 0 0 0 1933
Narration 4455 0 0 0 4455
Clarification_question 960 0 0 0 960
Confirmation_question 43 0 956 0 999
Q-Elab 229 0 0 0 229
Explanation 108 0 0 0 108
Alternation 173 0 0 0 173
Conditional 67 0 0 0 67
Sequence 0 38 0 0 38

反向关系

Lin-Lin Lin-NL NL-Lin NL-NL Total
Comment 242 0 0 0 242
Conditional 16 0 0 0 16

以上信息为Minecraft Structured Dialogue Corpus数据集的关键统计数据。

搜集汇总
数据集介绍
main_image_url
构建方式
Minecraft Structured Dialogue Corpus通过精心设计的标注流程构建,涵盖了407个训练和验证对话以及133个测试对话,总计540个对话。每个对话被细分为多个EDU(基本话语单元),并进一步压缩为更简洁的形式。数据集不仅包含语言单元(Lin),还纳入了非语言单元(NL),如动作指令,形成了丰富的关系实例。这些关系实例通过多种关系类型进行标注,如阐述、确认、结果等,确保了数据集在对话结构解析中的全面性和多样性。
特点
该数据集的显著特点在于其结构化的对话标注,不仅涵盖了语言单元,还引入了非语言单元,如动作指令,增强了数据集的多样性和实用性。此外,数据集中的关系类型丰富,包括前向和后向关系,如阐述、确认、结果等,为对话解析提供了多维度的训练数据。数据集还提供了自然语言表示的动作格式,便于研究人员进行不同层次的分析和应用。
使用方法
使用Minecraft Structured Dialogue Corpus时,研究人员可以通过提供的脚本和代码进行数据处理和模型训练。首先,利用`action_format.py`脚本将动作指令转换为自然语言表示。接着,按照提供的顺序运行`bert_finetune.ipynb`、`bert_linear.ipynb`、`bert_multitask.ipynb`和`bert_multitask_test.ipynb`笔记本,以复现和评估BertLine解析器的效果。这些步骤确保了数据集的高效利用和模型性能的准确评估。
背景与挑战
背景概述
Minecraft Structured Dialogue Corpus(Minecraft结构化对话语料库)是由相关研究人员在2024年LREC会议上提出的一个重要数据集,旨在探索和分析《Minecraft》游戏中的对话结构。该数据集的核心研究问题集中在对话单元(EDU)及其关系类型的标注上,特别是如何通过结构化的方式捕捉玩家在游戏中的互动行为。该数据集的创建不仅为对话分析领域提供了新的研究视角,还为《Minecraft》游戏中的自然语言处理任务提供了丰富的资源,推动了相关领域的技术进步。
当前挑战
Minecraft Structured Dialogue Corpus在构建过程中面临了多项挑战。首先,如何准确标注对话单元(EDU)及其关系类型,尤其是在涉及非语言单元(NL)时,确保标注的一致性和准确性是一个复杂的问题。其次,数据集中包含了大量的多父节点对话单元(Multi-parent DUs),这增加了关系解析的难度。此外,如何将游戏中的构建动作(Builder Action)与自然语言表达进行有效映射,并确保其在不同任务中的可扩展性,也是该数据集面临的一个重要挑战。
常用场景
经典使用场景
Minecraft Structured Dialogue Corpus 数据集的经典使用场景主要集中在对话结构解析和语篇分析领域。该数据集通过标注对话中的基本话语单元(EDUs)及其关系,为研究者提供了一个丰富的资源,用于训练和评估对话解析模型。特别是在多模态对话系统中,该数据集能够帮助模型理解对话中的结构化信息,从而提升对话系统的自然性和连贯性。
解决学术问题
该数据集解决了对话系统中对话结构解析的关键学术问题,特别是在多模态对话中,如何有效识别和解析对话中的基本话语单元及其关系。通过提供详细的标注数据,该数据集为研究者提供了一个标准化的基准,用于评估和改进对话解析算法。这不仅推动了对话系统领域的研究进展,还为多模态交互提供了新的研究方向。
衍生相关工作
基于Minecraft Structured Dialogue Corpus 数据集,研究者们已经开展了一系列相关工作,特别是在对话解析和多模态交互领域。例如,BertLine解析器的开发和应用,展示了如何利用该数据集进行对话结构的解析和建模。此外,该数据集还激发了在多模态对话系统中对非语言单元(如动作和事件)的深入研究,推动了对话系统在游戏和虚拟环境中的实际应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作