CogRail

Name: CogRail
Creator: 中国科学院·自动化研究所; 北京理工大学; 中国铁道科学研究院; 北京交通大学; 北京航空航天大学·智能交通系统实验室
Published: 2026-01-15 00:36:26
License: 暂无描述

arXiv2026-01-15 更新2026-01-16 收录

下载链接：

https://github.com/Hub-Tian/CogRail

下载链接

链接失效反馈

官方服务：

资源简介：

CogRail是由中国科学院自动化研究所联合多机构构建的铁路入侵认知感知基准数据集，整合了RailSem19和MRSI等开源视觉监控数据，通过认知驱动的问答标注支持时空推理与威胁预测。该数据集包含空间位置感知、运动预测和威胁评估三大任务，涵盖不同光照场景下的多样化入侵目标（如行人、车辆、动物等），并融合专家标注的威胁等级评估。其构建过程通过场景增强和视觉标注流程实现，旨在解决传统铁路入侵检测系统在语义理解、时空推理和风险预测方面的局限性，为智能铁路安全系统提供多模态评估框架。

CogRail is a railway intrusion cognitive perception benchmark dataset constructed by the Institute of Automation, Chinese Academy of Sciences in collaboration with multiple institutions. It integrates open-source visual surveillance datasets such as RailSem19 and MRSI, and supports spatio-temporal reasoning and threat prediction via cognition-driven question-answering annotations. This dataset encompasses three core tasks: spatial location awareness, motion prediction and threat assessment, covering diverse intrusion targets including pedestrians, vehicles, animals and others under various lighting conditions, and incorporates expert-annotated threat level assessments. Its construction is implemented through scene augmentation and visual annotation workflows, aiming to address the limitations of traditional railway intrusion detection systems in semantic understanding, spatio-temporal reasoning and risk prediction, and provide a multimodal evaluation framework for intelligent railway security systems.

提供机构：

中国科学院·自动化研究所; 北京理工大学; 中国铁道科学研究院; 北京交通大学; 北京航空航天大学·智能交通系统实验室

创建时间：

2026-01-15

原始信息汇总

CogRail 数据集概述

数据集简介

CogRail 是首个专注于认知铁路入侵感知的多模态基准和开源框架，其核心是基于真实世界监控场景构建的、带有认知驱动多维指令级标注的 CogRail 数据集。该数据集旨在支持铁路环境中感兴趣对象（OOIs）的时空推理、运动预测和威胁评估。

核心任务

CogRail 定义了三个核心评估任务：

CogRailPos（空间感知）：判断感兴趣对象相对于铁路基础设施的位置。
CogRailMove（运动预测）：预测运动的威胁级别。
CogRailThreat（威胁评估）：综合空间和运动信息来评估威胁。

数据集构成与来源

数据集结构：数据集主要包含两个文件夹：Cog-MRSI/ 和 Cog-RailSem19/。每个文件夹下均包含训练集（train）和测试集（test）。
标注特点：数据集集成了视觉问答标注与专家定义的威胁语义，并利用实例合成来增强数据多样性，同时保持了各子集间标签空间的一致性。
访问地址：数据集可通过 https://huggingface.co/datasets/BITZhangqy/Cog-Rail/ 访问。

基准评估与框架

基准目的：系统性地评估视觉语言模型（如 Qwen-VL 和 LLaVA）在铁路场景下的性能，揭示其在复杂时空推理中的优势与局限。
RAILGPT框架：项目引入了 RAILGPT 多任务微调框架，该框架结合视觉提示、文本指令和专用代理，以优化模型在位置感知、运动预测和威胁分析任务上的认知能力。经联合微调后，RAILGPT 在威胁分析任务上实现了 18.6% 的 F1 分数提升。

引用

若使用本数据集，请考虑引用以下文献： bibtex @misc{tian2026cograilbenchmarkingvlmscognitive, title={CogRail: Benchmarking VLMs in Cognitive Intrusion Perception for Intelligent Railway Transportation Systems}, author={Yonglin Tian and Qiyao Zhang and Wei Xu and Yutong Wang and Yihao Wu and Xinyi Li and Xingyuan Dai and Hui Zhang and Zhiyong Cui and Baoqing Guo and Zujun Yu and Yisheng Lv}, year={2026}, eprint={2601.09613}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2601.09613}, }

搜集汇总

数据集介绍

构建方式

在智能铁路运输系统领域，为实现对潜在入侵目标的深层认知感知，CogRail数据集通过整合开源视觉监控数据构建而成。该数据集以RailSem19和MRSI两个公开数据集为基础，经过场景采样与筛选，确保涵盖多样化的铁路环境与语义对象。为丰富前景目标，研究团队从LVIS数据集中提取了超过2000个对象实例，并通过几何变换与语义引导，将其合成至背景图像中，有效增强了数据的多样性与复杂性。随后，利用EISeg工具对轨道、道砟及前景目标进行精细化标注，包括多边形分割与边界框，并为每个感兴趣对象赋予语义类别、空间位置标签、运动状态及威胁等级，形成了结构化的视觉标注。在此基础上，通过手工设计的对话模板与GPT-4辅助的语义扩展，将视觉标注转化为多轮指令-响应对，最终构建为支持时空推理与威胁评估的多模态问答数据集。

特点

CogRail数据集的核心特点在于其专注于铁路入侵的认知感知，超越了传统的对象分类与检测任务。数据集设计了三个紧密关联的子任务：RailPos关注对象相对于铁路基础设施的空间位置感知，RailMove侧重于对象的运动状态预测，而RailThreat则综合空间、运动与场景语义进行威胁等级分析。这种多维度任务设计使得数据集能够支持复杂的时空推理与因果逻辑推断。此外，数据集包含Cog-MRSI和Cog-RailSem19两个子集，涵盖了不同光照、场景与对象类别，确保了评估的全面性与泛化能力。每个样本均配有专家标注的威胁级别，为模型提供了细粒度的监督信号，使其能够学习从感知到风险评估的完整认知链条。

使用方法

CogRail数据集主要用于评估与微调视觉-语言模型在铁路安全领域的认知推理能力。研究人员可基于该数据集构建如RailGPT所示的多模态智能体框架，通过设计对象级与区域级视觉提示，结合结构化的文本指令，引导模型完成空间定位、运动预测与威胁分析任务。数据集支持零样本评估，以检验现有基础模型的域外泛化性能；也适用于有监督的微调，可采用低秩自适应等技术对模型进行领域适配。更为重要的是，数据集支持多任务联合微调，通过混合三个子任务的问答对进行训练，使模型能够学习任务间的依赖关系，从而提升整体感知的准确性与可解释性。最终，该数据集为开发专用于铁路入侵认知感知的专用模型提供了标准化的基准与数据基础。

背景与挑战

背景概述

在智能铁路运输系统领域，准确且早期地感知潜在入侵目标对于保障运营安全至关重要。然而，传统系统多局限于固定视野内的对象分类，并依赖基于规则的启发式方法判断入侵状态，往往忽视具有潜在入侵风险的目标。为应对这一挑战，由中国科学院自动化研究所、北京交通大学、北京理工大学等机构的研究人员于2025年联合提出了CogRail基准数据集。该数据集旨在通过整合开源视觉监控数据与认知驱动的问答标注，支持时空推理与预测，从而推动深度入侵感知研究。CogRail的建立标志着铁路安全感知从被动检测向主动认知的范式转变，为视觉-语言模型在安全关键领域的专业化应用奠定了重要基础。

当前挑战

CogRail数据集致力于解决认知入侵感知这一复杂领域问题，其核心挑战在于要求模型不仅识别对象，还需理解其空间上下文与时间动态，以预判潜在入侵风险。这超越了传统的图像分类或目标检测任务，对模型的时空推理与因果逻辑能力提出了极高要求。在数据集构建过程中，研究人员面临多重困难：现有开源数据如RailSem19和MRSI主要关注对象分类与位置标注，缺乏描述运动趋势和场景语义的标注，难以支撑高级推理任务；同时，为满足多模态基础模型的训练需求，需将视觉标注转化为丰富多样的指令-响应对，这一过程需要精心设计任务定义并生成高质量的语义对齐标注，以确保数据集的多样性与任务针对性。

常用场景

经典使用场景

在智能铁路运输系统的安全监控领域，CogRail数据集主要用于评估和提升视觉语言模型在认知入侵感知任务中的性能。该数据集通过精心设计的视觉问答对，模拟了铁路沿线复杂动态场景下的多维度推理需求。研究人员利用CogRail对模型进行系统性评测，特别关注其在空间位置感知、运动状态预测和威胁等级分析三个核心任务上的表现。这种标准化的评估框架为比较不同模型的认知推理能力提供了统一基准，推动了领域内模型性能的客观衡量与持续优化。

实际应用

在实际铁路运营场景中，CogRail数据集支撑的系统能够部署于车站周界、平交道口及沿线重点区段的智能监控平台。通过实时分析监控视频流，系统可自动识别行人、车辆或动物等目标，判断其相对于轨道的空间位置、运动意图，并评估潜在的入侵风险等级。这种认知感知能力使得安全预警得以提前，为调度人员提供分级告警信息，辅助制定及时有效的干预措施，从而降低安全事故发生率，提升铁路运输系统的整体安全性与运营效率。

衍生相关工作

基于CogRail数据集，研究社区衍生出多项经典工作，其中最具代表性的是RailGPT框架。该框架构建了面向铁路安全的多智能体系统，包含位置感知、运动感知和威胁感知三个专用代理，并通过提示工程与微调策略适配主流视觉语言模型。后续研究进一步探索了多任务联合微调方法，有效整合了空间、时序与语义信息，显著提升了模型在复杂场景下的综合推理性能。这些工作不仅验证了CogRail的实用价值，也为领域自适应的大模型应用提供了可复现的技术路径与架构参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集