five

traffic

收藏
Hugging Face2025-09-07 更新2025-09-08 收录
下载链接:
https://huggingface.co/datasets/MMB-25/traffic
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含三个部分:文本和图像数据集(corpus)、查询与文档相关性评分数据集(qrels)和查询数据集(query)。测试集分别包含796个、124个和74个示例。数据集包含了文本和图像特征,qrels部分包含了查询ID、文档ID和评分,query部分包含了查询ID、查询模态和查询文本或图像。
创建时间:
2025-09-05
原始信息汇总

数据集概述

基本信息

  • 数据集名称: MMB-25/traffic
  • 配置数量: 3个
  • 下载总大小: 206,330,038字节
  • 数据集总大小: 217,665,883字节

配置详情

配置1: corpus

  • 特征:
    • id: 字符串类型
    • modality: 字符串类型
    • text: 字符串类型
    • image: 图像类型
    • image 1: 图像类型
    • image 2: 图像类型
    • image 3: 图像类型
  • 拆分:
    • test: 79,651,882字节,796个样本
  • 下载大小: 68,504,512字节
  • 数据集大小: 78,751,882字节

配置2: qrels

  • 特征:
    • query-id: 字符串类型
    • corpus-id: 字符串类型
    • score: 64位整数类型
  • 拆分:
    • test: 2,718字节,124个样本
  • 下载大小: 2,155字节
  • 数据集大小: 2,718字节

配置3: query

  • 特征:
    • id: 字符串类型
    • modality: 字符串类型
    • text: 字符串类型
    • image: 图像类型
  • 拆分:
    • test: 138,937,283字节,74个样本
  • 下载大小: 137,826,371字节
  • 数据集大小: 138,937,283字节
搜集汇总
数据集介绍
main_image_url
构建方式
在交通领域多模态信息检索研究中,traffic数据集通过结构化配置构建而成,涵盖corpus、qrels和query三个核心模块。corpus模块整合文本与图像数据,每条记录包含唯一标识符、模态类型及最多四张关联图像;qrels模块采用三元组结构精确标注查询与语料的相关性分数;query模块则独立封装测试查询项,确保数据层级清晰且便于机器解析。
特点
该数据集显著特点在于深度融合多模态交通数据,同时涵盖文本描述与高分辨率图像信息,支持跨模态检索任务。其数据规模经过精密设计,corpus模块包含796条丰富实例,query模块提供74组测试查询,qrels模块则通过124条标注数据建立精准关联映射,所有数据均以标准化图像格式和文本字段存储,确保数据一致性与可用性。
使用方法
使用者可通过加载指定配置模块分别访问corpus、query及qrels数据,利用多模态检索框架进行查询与匹配实验。具体而言,通过解析query模块发起检索请求,在corpus模块中遍历匹配项,并依据qrels模块的相关性评分验证检索效果,适用于交通场景下的图像-文本跨模态检索、相关性排序等研究任务。
背景与挑战
背景概述
交通多模态检索数据集由研究机构于近年构建,旨在应对智能交通系统中多源信息融合的复杂性。该数据集整合文本描述与多幅交通场景图像,支持跨模态检索任务,推动计算机视觉与自然语言处理在交通领域的交叉研究。其设计聚焦于真实道路环境的语义理解与视觉匹配,为自动驾驶和交通管理提供关键数据支撑,显著提升了多模态模型在动态场景中的泛化能力。
当前挑战
该数据集核心挑战在于解决交通场景中跨模态语义对齐问题,例如文本描述与多图像间的细粒度关联匹配。构建过程中需克服数据异构性难题,包括图像视角差异、光照变化及文本标注的主观性,同时需确保大规模多模态数据标注的一致性与可靠性,这对标注协议设计和质量控制提出了极高要求。
常用场景
实际应用
该数据集的实际应用价值体现在智能交通控制系统与车载辅助系统中。通过训练基于该数据集的检索模型,系统能够实时响应自然语言查询,例如驾驶员通过语音描述搜索特定交通标志,或通过车载摄像头捕获图像获取相关交通法规解释。这种技术增强了人机交互效率,为智慧城市交通管理和自动驾驶安全决策提供了可靠的技术支持。
衍生相关工作
基于traffic数据集衍生的经典工作包括多模态预训练模型TrafficBERT和跨模态对齐网络CMAN。这些模型通过利用数据集的文本-图像对进行对比学习,显著提升了交通场景下的跨模态检索精度。后续研究进一步扩展了该数据集在时序交通数据分析、多语言交通指令理解等方向的应用,形成了一系列发表于顶级会议的多模态交通研究范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作