MinecraftStructuredDialogueCorpus
收藏Minecraft Structured Dialogue Corpus (MSDC) 数据集概述
基本信息
- 许可证: CC0 1.0
- 语言: 英语 (en)
数据集描述
MSDC是基于Minecraft Dialogue Corpus (MDC)的语篇标注版本,采用情境化语篇表示理论(Situated Discourse Representation Theory)风格标注。
数据收集场景
- 参与者通过模拟3D Minecraft网格中的聊天窗口进行自然语言对话
- 角色分配:
- Architect: 查看彩色积木结构图像并给出指令
- Builder: 根据指令在网格上重建结构
- 对话内容包括:
- 语言交流轮次
- Builder动作的文本表示(如"place orange 2 1 -1")
标注信息
- 由语篇专家和学生团队标注:
- 将语言轮次手工分割为基本语篇单元(EDUs)
- 每个Builder动作轮次视为单个基本事件单元(EEUs)
- 原始MDC对话中除7个外全部被标注
- 保留原始MDC划分,仅从Test集中提取少量开发集用于Llamipa语篇解析器开发
数据集统计
| 指标 | Train | Val | Test | Dev | Total |
|---|---|---|---|---|---|
| 对话数量 | 307 | 100 | 101 | 32 | 540 |
| EDU数量 | 9616 | 3297 | 3009 | 1128 | 17050 |
| EEU数量 | 6669 | 2240 | 2006 | 732 | 11647 |
| 关系实例数量 | 19598 | 6681 | 6018 | 2232 | 34529 |
引用信息
推荐引用文献: Thompson, K., Hunter, J., & Asher, N. (2024). Discourse Structure for the Minecraft Corpus. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024) (pp. 4957-4967).
bibtex @inproceedings{thompson-etal-2024-discourse, title = "Discourse Structure for the {M}inecraft Corpus", author = "Thompson, Kate and Hunter, Julie and Asher, Nicholas", booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)", year = "2024", pages = "4957--4967" }
致谢
数据集开发获得以下项目支持:
- 法国ANITI人工智能研究所
- ANR项目COCOBOTS (ANR-21-FAI2-0005)
- ANR/DGA项目DISCUTER (ANR21-ASIA-0005)
- 法国Occitanie大区COCOPIL "Graine"项目




