由GPT-4V标注的场景驱动的语义通信数据集
收藏arXiv2025-09-09 更新2025-09-11 收录
下载链接:
https://github.com/xyfyyds/Semantic-Communication-Cityscapes
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由GPT-4V进行场景驱动的语义重要性标注,用于训练和测试场景增强的语义通信系统。数据集通过分析图像中各个对象在特定任务背景下的语义重要性,实现了更有效的资源分配。数据集的创建过程包括使用MLLM进行语义重要性标注,并将这些标注用于训练向量化和JSCC编码器/解码器。该数据集旨在解决现有语义通信系统中静态分配资源的问题,通过场景感知的重要性分配机制,实现了更高效和有效的资源利用,从而提高了编码效率。
This dataset utilizes GPT-4V to perform scene-driven semantic importance annotations, and is intended for training and testing scene-enhanced semantic communication systems. It enables more efficient resource allocation by analyzing the semantic importance of each object within an image against the backdrop of a specific task. The dataset creation process includes using MLLM to generate semantic importance annotations, and leveraging these annotations to train vectorizers and JSCC encoders/decoders. This dataset is designed to resolve the problem of static resource allocation in current semantic communication systems. By adopting scene-aware importance allocation mechanisms, it realizes more efficient and effective resource utilization, thereby enhancing coding efficiency.
提供机构:
香港中文大学信息工程系
创建时间:
2025-09-09
原始信息汇总
Cityscapes-100 重要性标注数据集概述
数据集简介
本数据集是Cityscapes数据集的精选子集,专注于城市驾驶场景中的目标检测和重要性标注。数据集包含从17个不同城市选取的100张图像,并通过两阶段标注流程处理:
- 目标检测:使用YOLO检测车辆、行人和其他道路实体
- 重要性标注:通过以下方式为检测到的对象分配重要性级别:
- 使用GPT-4o-preview进行自动标注
- 由三名标注员进行人工评估
数据集结构
- allocated_feifan/:标注员Feifan的人工重要性标注
- allocated_xiaoyan/:标注员Xiaoyan的人工重要性标注
- allocated_yifan/:标注员Yifan的人工重要性标注
- cityscapes-100/:原始选取的图像
- cityscapes-100-detected/:YOLO检测结果(JSON + 可视化图像)
- cityscapes-100-allocated/:ChatGPT生成的重要性标注(JSON)
数据格式
检测文件(*_detected.json)
JSON文件包含检测到的对象列表,包含以下字段:
name:检测到的对象标签class:YOLO模型的类别索引confidence:检测置信度分数box:边界框坐标(左上角和右下角)track_id:图像中检测到的对象的唯一ID
重要性标注文件(*_importance.json)
JSON文件包含从track_id到重要性分数的映射:
- 1 → 低重要性
- 2 → 中等重要性
- 3 → 高重要性
许可信息
原始Cityscapes数据集遵循其自身许可协议。该子集的图像遵循相同的许可条款,新增的标注按照CC BY 4.0许可发布。
搜集汇总
数据集介绍

构建方式
该数据集构建过程融合了多模态大语言模型的前沿能力与人工验证机制。首先基于Cityscapes自动驾驶数据集,采用YOLOv11x目标检测器识别交通场景中的关键物体,随后通过精心设计的提示工程引导GPT-4V模型对检测对象进行场景增强的语义重要性标注。标注过程模拟人类驾驶员的决策逻辑,综合考虑物体与自车的相对位置、运动状态及对驾驶决策的影响程度,将重要性分为高、中、低三级。为确保标注质量,研究团队邀请三位经验丰富的驾驶员对随机抽样的100张图像进行人工标注,形成可交叉验证的基准数据。最终通过对象级到块级的映射转换,生成与图像块序列严格对应的语义重要性标签序列。
使用方法
该数据集专为训练和评估场景增强的语义通信系统而设计。研究人员可将其作为知识蒸馏的监督信号,训练向量化网络和JSCC编解码器学习动态资源分配策略。具体使用时,需将图像块序列与对应的语义重要性标签共同输入网络,通过设计的场景增强损失函数引导模型优先重构高重要性区域。数据集中的人类验证子集可用于评估模型输出与人类认知的一致性,而机器标注全集则适用于大规模训练。在自动驾驶验证场景中,该系统可显著提升对关键交通要素的编码效率,实现带宽资源与语义重要性的最优匹配。
背景与挑战
背景概述
随着增强现实与物联网等视觉应用的迅猛发展,传统通信系统面临带宽瓶颈与语义理解不足的双重挑战。在此背景下,香港中文大学研究团队于2025年提出了由GPT-4V标注的场景驱动语义通信数据集,该数据集聚焦自动驾驶场景,通过多模态大语言模型对图像对象进行场景化语义重要性标注,旨在解决传统语义通信中静态重要性分配与动态场景需求不匹配的核心问题。该数据集首次将MLLM的场景理解能力引入语义通信领域,为自适应语义编码建立了新的基准。
当前挑战
该数据集主要面临两大挑战:在领域问题层面,需突破传统对象导向语义通信(OOSC)对物体类别赋予固定重要性的局限,实现基于场景上下文动态分配语义重要性的复杂建模;在构建过程中,需解决多模态大语言模型标注的语义重要性与人类驾驶认知的一致性验证问题,包括跨场景的对象重要性歧义处理、背景区域与关键对象的区分精度,以及分布外对象的语义重要性标注可靠性等关键技术难点。
常用场景
经典使用场景
在自动驾驶场景中,该数据集被广泛应用于语义通信系统的训练与验证,通过多模态大语言模型(MLLM)标注的对象级语义重要性标签,驱动编码器动态分配信道资源。例如,在车辆协同感知任务中,系统能够优先处理前方近距离车辆或横穿马路的行人等高风险对象,显著提升通信效率与场景理解能力。
解决学术问题
该数据集解决了传统语义通信中对象重要性静态分配的问题,通过引入场景感知的动态语义重要性标注,突破了纹理复杂度主导的编码范式。其核心贡献在于将上下文相关性纳入资源分配决策,为语义通信理论提供了可量化的评估基准,推动了任务导向通信范式的演进。
实际应用
该数据集已实际部署于车联网环境中的实时图像传输系统,支持多车辆协同感知与决策。通过动态分配编码资源至关键对象(如交通信号灯、突发障碍物),在带宽受限条件下仍能保证高优先级信息的无损重构,为自动驾驶、远程监控等低延迟高可靠性应用提供底层支撑。
数据集最近研究
最新研究方向
在语义通信领域,由GPT-4V标注的场景驱动语义通信数据集正推动研究向动态情境感知编码方向深化。该数据集通过多模态大语言模型(MLLM)对图像对象进行场景化语义重要性标注,解决了传统对象导向语义通信(OOSC)中静态重要性分配的局限性。当前研究聚焦于融合MLLM的知识蒸馏技术,使编码框架能够根据上下文动态分配资源,优先处理高重要性对象(如自动驾驶中临近车辆或行人),同时减少对低重要性背景区域的带宽占用。这一方向与6G通信、自动驾驶及物联网的高效数据传输需求紧密关联,显著提升了编码效率与任务相关性,为下一代语义通信系统设立了新基准。
相关研究论文
- 1SA-OOSC: A Multimodal LLM-Distilled Semantic Communication Framework for Enhanced Coding Efficiency with Scenario Understanding香港中文大学信息工程系 · 2025年
以上内容由遇见数据集搜集并总结生成



