CODA desc 和 nuScenes desc
收藏arXiv2024-12-10 更新2024-12-12 收录
下载链接:
https://github.com/fjq-tongji/HCOENet
下载链接
链接失效反馈官方服务:
资源简介:
CODA desc 和 nuScenes desc 是由同济大学上海智能自主系统研究所创建的两个用于交通场景语义理解的新数据集。这些数据集旨在为每个驾驶场景提供丰富且无幻觉的语义描述,支持未来的研究工作。数据集通过HCOENet方法创建,该方法结合了幻觉交叉检查框架和关键对象增强框架,确保描述的准确性和完整性。数据集的应用领域主要集中在自动驾驶系统的语义场景理解,旨在解决自动驾驶系统中的幻觉问题,提高驾驶安全性。
CODA desc and nuScenes desc are two novel datasets for traffic scene semantic understanding created by the Shanghai Institute of Intelligent Autonomous Systems, Tongji University. These datasets aim to provide rich and hallucination-free semantic descriptions for each driving scenario, supporting future research work. The datasets are developed via the HCOENet method, which combines a hallucination cross-checking framework and a key object enhancement framework to ensure the accuracy and completeness of the descriptions. Their application fields mainly focus on semantic scene understanding for autonomous driving systems, aiming to solve the hallucination problem in autonomous driving systems and improve driving safety.
提供机构:
上海智能自主系统研究所,同济大学
创建时间:
2024-12-10
搜集汇总
数据集介绍

构建方式
CODA desc 和 nuScenes desc 数据集通过 HCOENet 方法构建,该方法旨在消除视觉-语言模型在交通场景中的幻觉现象。具体而言,HCOENet 采用了一种链式思维校正方法,通过交叉验证机制过滤实体,并直接从图像中提取关键对象,从而丰富描述文本。该数据集的构建过程包括图像文本标注对生成、实体交叉验证、幻觉校正以及关键对象识别与描述等多个步骤,确保生成的描述准确且无幻觉。
使用方法
CODA desc 和 nuScenes desc 数据集可用于训练和评估视觉-语言模型在交通场景中的表现。研究者可以使用这些数据集来训练模型,以提高其在多模态理解任务中的准确性和鲁棒性。此外,数据集还可用于测试现有模型的幻觉消除能力,帮助开发更可靠的自动驾驶系统。通过分析数据集中的图像和描述,研究者可以进一步优化模型,提升其在复杂交通环境中的感知和决策能力。
背景与挑战
背景概述
近年来,视觉-语言模型(LVLMs)在多模态任务中展现出卓越的能力,但在交通场景中,这些模型偶尔会产生幻觉,导致描述与图像不符,进而影响自动驾驶系统的决策。为解决这一问题,Jiaqi Fan等人提出了HCOENet,一种用于消除幻觉并增强描述的链式思维校正方法。该方法通过交叉验证机制过滤实体,并直接从图像中提取关键对象,从而丰富描述文本。此外,研究团队还创建了两个新的交通场景语义理解数据集,CODA desc和nuScenes desc,以支持未来的研究。这些数据集的创建旨在为交通场景提供更丰富且无幻觉的语义描述,推动自动驾驶领域的进一步发展。
当前挑战
CODA desc和nuScenes desc数据集的构建面临多个挑战。首先,交通场景的复杂性要求模型不仅能够检测和消除幻觉,还需增强对初始响应中忽略的关键对象的描述。其次,构建过程中,如何有效提取图像中的关键对象并生成准确的描述是一个技术难题。此外,数据集的标注需要高度自动化,以确保在大规模数据集上的可扩展性。最后,如何在保持模型性能的同时,减少模型的训练时间和计算成本,也是该数据集面临的重要挑战。
常用场景
经典使用场景
CODA desc 和 nuScenes desc 数据集在交通场景中的视觉-语言模型(LVLMs)中具有经典应用场景,主要用于解决模型在生成描述时产生的幻觉问题。这些数据集通过提供丰富的语义描述,帮助模型在复杂的交通环境中准确识别和描述关键对象,从而提升模型的多模态理解能力。
解决学术问题
CODA desc 和 nuScenes desc 数据集解决了视觉-语言模型在交通场景中常见的幻觉问题,即模型生成的描述与实际图像不符。通过提供高质量的语义描述,这些数据集帮助模型识别和纠正幻觉内容,从而提高模型的准确性和可靠性,确保自动驾驶系统在复杂交通环境中的安全决策。
实际应用
CODA desc 和 nuScenes desc 数据集在自动驾驶系统中具有广泛的应用场景。它们为自动驾驶车辆提供了准确的交通场景描述,帮助车辆识别行人、车辆、交通标志等关键对象,从而做出正确的驾驶决策。此外,这些数据集还可用于训练和验证其他交通相关的视觉-语言模型,提升其在实际应用中的表现。
数据集最近研究
最新研究方向
在交通场景中,视觉-语言模型(LVLMs)的幻觉问题已成为一个亟待解决的前沿挑战。最新的研究方向集中在通过HCOENet框架来消除这些幻觉,并增强对关键对象的描述。HCOENet采用了一种链式思维校正方法,通过交叉验证机制过滤实体,并直接从图像中提取关键对象,从而丰富描述文本。实验结果表明,该方法在POPE基准测试中显著提升了模型的F1分数,尤其是在Mini-InternVL-4B和mPLUG-Owl3模型上分别提升了12.58%和4.28%。此外,HCOENet还创建了两个新的语义理解数据集CODA desc和nuScenes desc,为未来的研究提供了丰富的资源。这些进展不仅提升了自动驾驶系统的安全性,还为多模态理解领域提供了新的研究方向。
相关研究论文
- 1Hallucination Elimination and Semantic Enhancement Framework for Vision-Language Models in Traffic Scenarios上海智能自主系统研究所,同济大学 · 2024年
以上内容由遇见数据集搜集并总结生成



