Navi Corpus

github2023-09-24 更新2024-05-31 收录

下载链接：

https://github.com/clic-lab/navigation-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该语料库包含两个版本：1. 原始分段语料库，用于Chen和Mooney在2011年的研究，分为3个折叠用于跨地图的交叉验证。2. 清理后的Oracle版本语料库，用于Artzi和Zettlemoyer在2013年的研究，分为测试集和训练/开发集，开发集进一步分为随机分割用于开发期间的交叉验证。

This corpus comprises two versions: 1. The original segmented corpus, utilized in the research by Chen and Mooney in 2011, is divided into three folds for cross-validation across maps. 2. The cleaned Oracle version of the corpus, employed in the study by Artzi and Zettlemoyer in 2013, is partitioned into a test set and a training/development set, with the development set further divided into random splits for cross-validation during the development phase.

创建时间：

2016-12-26

原始信息汇总

数据集概述

数据集名称

Navi Corpus

数据集版本

原始分段版本：由Chen和Mooney在2011年使用，数据分为3个折叠，用于跨3个不同地图的交叉验证。
清理后的Oracle版本：详见Artzi和Zettlemoyer在2013年的清理过程说明。数据分为两个随机选择的部分，一个用于测试，另一个用于训练和开发。开发集进一步分为随机分割，用于开发期间的交叉验证。

数据集目录结构

tacl-data：包含上述两个版本的处理数据，格式与Artzi和Zettlemoyer在2013年使用的格式相同。
sail：包含原始的SAIL语料库。
navi：包含Oracle语料库的开发。
pysrc：包含各种实用工具。

引用信息

Artzi, Yoav and Zettlemoyer, Luke. "Weakly Supervised Learning of Semantic Parsers for Mapping Instructions to Actions." In Transactions of the Association for Computational Linguistics (TACL), 2013.
MacMahon, Matt and others. "Walk the Talk: Connecting Language, Knowledge, and Action in Route Instructions." Proceedings of the 21st National Conference on Artificial Intelligence (AAAI-2006), 2006.
Chen, David L. and Mooney, Raymond J. "Learning to Interpret Natural Language Navigation Instructions from Observations." Proceedings of the 25th AAAI Conference on Artificial Intelligence (AAAI-2011), 2011.

许可证

本数据集遵循GNU General Public License v2或更高版本。

搜集汇总

数据集介绍

构建方式

Navi Corpus的构建基于Chen和Mooney（2011年）以及MacMahon等人（2006年）的研究数据。该数据集包含两个版本：其一是Chen和Mooney在2011年使用的原始分段语料库，该数据被划分为三个折叠，用于在不同地图上进行交叉验证；其二是经过清理的Oracle版本语料库，该版本数据被随机分为测试集和训练开发集，开发集进一步划分为随机子集以支持开发过程中的交叉验证。

使用方法

使用Navi Corpus时，建议直接从Navi仓库获取数据以确保数据的完整性和最新性。数据集的使用需遵循GNU通用公共许可证，使用时需引用Artzi和Zettlemoyer（2013年）的研究成果，并同时引用原始语料库的创建者MacMahon等人（2006年）和Chen与Mooney（2011年）的工作。数据集中的`tacl-data`目录提供了处理后的语料库版本，`sail`和`navi`目录分别包含原始SAIL语料库和Oracle语料库的开发版本，`pysrc`目录则提供了多种实用工具。

背景与挑战

背景概述

Navi Corpus是由Yoav Artzi开发和维护的一个语义解析数据集，主要基于Chen和Mooney（2011年）以及MacMahon等人（2006年）的研究数据。该数据集的核心研究问题在于如何通过弱监督学习将自然语言导航指令映射到具体的行动序列。这一研究问题在自然语言处理和机器人导航领域具有重要意义，推动了语义解析技术的发展。Navi Corpus的创建时间为2013年，其影响力主要体现在为语义解析任务提供了高质量的训练和测试数据，促进了相关算法的改进和优化。

当前挑战

Navi Corpus所解决的主要领域问题是自然语言导航指令的语义解析，这一任务面临的挑战包括指令的多样性和复杂性、环境模型的动态变化以及弱监督学习中的数据稀疏性问题。在构建过程中，研究人员面临的挑战包括如何从原始数据中提取有效的语义信息、如何清理和标准化数据以确保其质量，以及如何设计合理的评估框架来验证模型的性能。这些挑战不仅影响了数据集的构建过程，也对后续的算法设计和优化提出了更高的要求。

常用场景

经典使用场景

Navi Corpus 数据集在自然语言处理领域中被广泛用于语义解析和指令到动作的映射研究。其经典使用场景包括训练和评估自然语言导航指令的解析模型，特别是在机器人导航和虚拟环境中的路径规划任务中。通过提供丰富的语言指令和对应的动作序列，该数据集为研究者提供了一个标准化的测试平台，用于验证语义解析算法的有效性。

解决学术问题

Navi Corpus 数据集解决了自然语言处理中语义解析的若干关键问题，尤其是在弱监督学习环境下如何从有限的标注数据中学习语义解析器。通过提供多版本的语料库，包括原始版本和经过清理的Oracle版本，该数据集帮助研究者克服了数据噪声和不一致性带来的挑战，推动了语义解析技术的进步。

实际应用

在实际应用中，Navi Corpus 数据集被广泛用于开发智能导航系统和虚拟助手。例如，基于该数据集训练的模型可以应用于家庭服务机器人，帮助其理解并执行用户的自然语言指令，完成诸如“去厨房拿杯子”等任务。此外，该数据集还在增强现实（AR）和虚拟现实（VR）环境中用于开发交互式导航系统，提升用户体验。

数据集最近研究