NoisyEQA

Name: NoisyEQA
Creator: 南洋理工大学
Published: 2024-12-14 15:52:24
License: 暂无描述

arXiv2024-12-14 更新2024-12-25 收录

下载链接：

http://arxiv.org/abs/2412.10726v1

下载链接

链接失效反馈

官方服务：

资源简介：

NoisyEQA数据集由南洋理工大学MARS实验室创建，旨在评估具身问答（EQA）系统在处理含噪声问题时的鲁棒性。该数据集包含500个含噪声的问题，涵盖四种常见的噪声类型：潜在幻觉噪声、记忆噪声、感知噪声和语义噪声。数据集通过自动化框架生成，模拟了真实世界中人类提问时可能出现的错误和偏差。创建过程中，研究人员对噪声进行了细粒度分类，并生成了对应的问题。NoisyEQA数据集主要应用于提升EQA系统在复杂和现实场景中的语言理解和推理能力，旨在解决系统在面对含噪声问题时的准确性和鲁棒性问题。

The NoisyEQA dataset was created by the MARS Lab at Nanyang Technological University, with the objective of evaluating the robustness of embodied question answering (EQA) systems when processing noisy questions. This dataset includes 500 noisy questions spanning four common noise categories: latent hallucination noise, memory noise, perceptual noise, and semantic noise. It was generated via an automated framework that simulates the realistic errors and biases that arise during human questioning in real-world settings. During the dataset construction process, researchers performed fine-grained categorization of the noise types and generated matching questions. The NoisyEQA dataset is primarily utilized to improve the language understanding and reasoning abilities of EQA systems in complex and realistic scenarios, targeting the resolution of accuracy and robustness issues of such systems when confronted with noisy questions.

提供机构：

南洋理工大学

创建时间：

2024-12-14

搜集汇总

数据集介绍

构建方式

NoisyEQA数据集的构建基于一个自动化的框架，通过引入四种常见的噪声类型——潜在幻觉噪声、记忆噪声、感知噪声和语义噪声，模拟现实场景中人类提问中的不准确性。具体而言，潜在幻觉噪声通过引入场景中不存在的对象生成问题；记忆噪声通过修改对象的属性（如位置、颜色、形状等）来模拟人类的记忆错误；感知噪声通过添加高斯噪声到场景图像中，模拟视觉干扰；语义噪声则通过替换场景中的对象为语义相关但不正确的对象来生成问题。最终，数据集包含500个带有噪声的问题，并通过志愿者进行严格审查以确保数据的准确性和多样性。

特点

NoisyEQA数据集的特点在于其系统地模拟了现实世界中人类提问中的噪声问题，涵盖了四种主要噪声类型及其子类。这些噪声类型不仅反映了人类在提问时可能出现的记忆错误、视觉干扰和语义混淆，还通过自动化的生成框架确保了数据的多样性和可控性。此外，数据集还引入了自校正机制，帮助代理在回答噪声问题时进行噪声检测和校正，从而提高了代理在现实场景中的鲁棒性。

使用方法

NoisyEQA数据集的使用方法主要包括噪声问题的检测与校正。首先，代理通过自校正机制对噪声问题进行检测，识别出问题中的噪声类型。随后，代理根据检测结果对问题进行校正，生成无噪声的响应。这一过程通过两种自校正格式实现：噪声感知提示（NAP）和噪声感知思维链（NACoT）。NAP通过附加提示提醒代理仔细检查问题中的信息，而NACoT则通过逐步验证问题的各个组成部分来检测和校正噪声。最终，代理生成准确的响应，并通过新的评估框架（如检测率和校正率）进行性能评估。

背景与挑战

背景概述

NoisyEQA数据集由新加坡南洋理工大学的MARS实验室与日本理化学研究所（RIKEN AIP）的研究团队于2024年提出，旨在评估具身问答（Embodied Question Answering, EQA）系统在处理包含噪声的查询时的表现。具身问答任务要求智能体在复杂环境中通过主动探索和视觉感知来回答自然语言问题。然而，现实场景中用户提出的问题往往包含噪声，如记忆错误、感知偏差或语义混淆，这些问题会显著影响智能体的回答准确性。NoisyEQA通过引入四种常见的噪声类型（潜在幻觉噪声、记忆噪声、感知噪声和语义噪声），并利用自动化框架生成500个噪声问题，为EQA系统提供了一个全面的评估基准。该数据集的提出填补了现有EQA系统在处理噪声问题上的空白，推动了具身智能在现实应用中的发展。

当前挑战

NoisyEQA数据集面临的主要挑战包括两个方面：首先，在领域问题方面，具身问答系统需要处理用户提出的包含噪声的问题，这些问题可能导致智能体产生错误的探索路径或回答，尤其是在高风险的现实场景中，如医疗辅助或家庭服务，错误的回答可能带来严重后果。其次，在数据集构建过程中，如何系统地模拟和生成不同类型的噪声问题是一个技术难点。研究团队通过结合大语言模型（LLM）和视觉语言模型（VLM），设计了一个自动化框架来生成噪声问题，但仍需确保生成的噪声问题具有多样性和现实代表性。此外，如何设计有效的评估指标来衡量智能体在噪声检测和纠正方面的能力，也是一个亟待解决的问题。

常用场景

经典使用场景

NoisyEQA数据集主要用于评估具身问答（EQA）系统在处理包含噪声的查询时的表现。通过模拟现实世界中人类提出的模糊、不准确或含有错误假设的问题，该数据集能够帮助研究人员测试和优化EQA系统在复杂环境中的鲁棒性。经典的使用场景包括在家庭、办公室或公共场所中，智能助手或机器人需要回答用户提出的关于环境中物体位置、属性或状态的问题。

衍生相关工作

NoisyEQA数据集的推出催生了一系列相关研究工作，特别是在噪声鲁棒性增强和具身问答系统的优化方面。基于该数据集，研究人员提出了多种噪声检测和纠正机制，如自校正提示（Self-Correction Prompting）和噪声感知链式思维（Noise Aware Chain of Thought）。这些方法不仅提升了EQA系统在噪声环境下的表现，还为其他多模态任务中的噪声处理提供了新的思路。此外，NoisyEQA还启发了更多关于人类-机器交互中信息不一致性问题的研究，推动了具身智能系统在真实场景中的广泛应用。

数据集最近研究