Navi Corpus

github2023-09-24 更新2024-05-31 收录

下载链接：

https://github.com/lil-lab/navigation-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该语料库包括两个版本：1. 原始分段语料库，用于Chen和Mooney 2011年的研究，数据分为3个折叠，用于跨3个不同地图的交叉验证。2. 清理后的Oracle版本语料库，数据分为两组，一组用于测试，一组用于训练和开发。

This corpus comprises two versions: 1. The original segmented corpus, utilized in the research by Chen and Mooney in 2011, is divided into three folds for cross-validation across three distinct maps. 2. The cleaned Oracle version of the corpus, which is partitioned into two sets—one for testing and the other for training and development.

创建时间：

2016-12-26

原始信息汇总

数据集概述

数据集名称

Navi Corpus

开发者与维护者

由Yoav Artzi开发和维护。

数据集版本

原始分段版本：Chen和Mooney在2011年使用的数据，分为3个折叠用于跨验证。
清理后的Oracle版本：Artzi和Zettlemoyer在2013年详细描述了清理过程，数据分为测试集和训练/开发集。

数据集目录结构

tacl-data：包含上述两个版本的处理数据。
sail：包含原始SAIL corpus。
navi：包含Oracle corpus的开发。
pysrc：包含各种实用工具。

引用信息

使用此数据集时，请引用：

Artzi, Yoav and Zettlemoyer, Luke. "Weakly Supervised Learning of Semantic Parsers for Mapping Instructions to Actions." In Transactions of the Association for Computational Linguistics (TACL), 2013.

同时，请引用原始数据集的创建者：

MacMahon, Matt and others. "Walk the Talk: Connecting Language, Knowledge, and Action in Route Instructions", 2006.
Chen, David L. and Mooney, Raymond J. "Learning to Interpret Natural Language Navigation Instructions from Observations", 2011.

许可证

本数据集遵循GNU General Public License v2或更高版本。

搜集汇总

数据集介绍

构建方式

Navi Corpus的构建基于Chen和Mooney 2011年以及MacMahon等人2006年的研究数据。该数据集包含两个版本：一是Chen和Mooney在2011年使用的原始分段语料库，该数据被划分为三个折叠，用于在不同地图上进行交叉验证；二是经过清理的Oracle版本语料库，该版本数据被随机分为测试集和训练开发集，开发集进一步划分为随机子集以支持开发过程中的交叉验证。

特点

Navi Corpus的特点在于其多样化的数据划分方式，能够支持复杂的交叉验证实验。原始语料库的分段设计使得研究者能够在不同地图上进行验证，而Oracle版本的清理过程则确保了数据的质量与一致性。此外，数据集还提供了多种格式的处理版本，便于不同研究需求的使用。

使用方法

使用Navi Corpus时，建议直接从Navi仓库获取数据以确保数据的最新性和完整性。数据集的使用应遵循GNU通用公共许可证的规定，并在引用时注明Artzi和Zettlemoyer 2013年的研究，以及原始数据创建者MacMahon等人2006年和Chen与Mooney 2011年的工作。数据集中的`tacl-data`目录包含了处理后的语料库版本，`sail`目录存放了原始的SAIL语料库，`navi`目录则包含了Oracle语料库的开发版本，`pysrc`目录提供了多种实用工具。

背景与挑战

背景概述

Navi Corpus数据集由Yoav Artzi开发并维护，基于Chen和Mooney（2011年）以及MacMahon等人（2006年）的研究数据。该数据集主要用于自然语言导航指令的语义解析研究，旨在通过弱监督学习方法将自然语言指令映射到具体行动。其核心研究问题在于如何从观察中学习并解释自然语言导航指令，从而推动机器人在复杂环境中的自主导航能力。Navi Corpus在自然语言处理领域具有重要影响力，特别是在语义解析和机器人导航指令理解方面，为相关研究提供了宝贵的数据支持。

当前挑战

Navi Corpus面临的挑战主要集中在两个方面。首先，自然语言导航指令的多样性和复杂性使得语义解析任务极具挑战性，尤其是在缺乏明确标注的情况下，如何通过弱监督学习准确解析指令成为关键问题。其次，数据集的构建过程中，原始数据的清洗和标注工作也面临诸多困难，尤其是在确保数据一致性和准确性的同时，如何保持数据的多样性和代表性。此外，跨地图的导航指令解析要求模型具备较强的泛化能力，这对模型的鲁棒性和适应性提出了更高的要求。

常用场景

经典使用场景

Navi Corpus 数据集在自然语言处理领域中被广泛应用于语义解析任务，尤其是在将自然语言指令映射到具体动作的研究中。通过提供详细的路线导航指令及其对应的动作序列，该数据集为研究者提供了一个标准化的测试平台，用于开发和评估语义解析模型。其经典使用场景包括跨地图的交叉验证和随机分割的训练与测试集，这些场景为模型的泛化能力和鲁棒性提供了充分的验证。

解决学术问题

Navi Corpus 数据集解决了自然语言处理中的关键问题，即如何从自然语言指令中提取语义信息并将其映射到具体的动作序列。这一问题在机器人导航、智能助手等领域具有重要的学术意义。通过弱监督学习方法，该数据集帮助研究者开发出能够从有限标注数据中学习语义解析的模型，极大地推动了语义解析技术的发展，并为后续研究提供了坚实的基础。

衍生相关工作

Navi Corpus 数据集衍生了许多经典的研究工作，尤其是在语义解析和弱监督学习领域。例如，Artzi 和 Zettlemoyer 在 2013 年提出的弱监督学习方法为该领域的后续研究奠定了基础。此外，基于该数据集的语义解析模型在机器人导航、智能助手等领域的应用也得到了广泛关注。这些工作不仅推动了语义解析技术的发展，还为自然语言处理与机器人学的交叉研究提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集