vlm2-orderless-balanced-5000
收藏Hugging Face2026-05-19 更新2026-05-20 收录
下载链接:
https://huggingface.co/datasets/jizerro/vlm2-orderless-balanced-5000
下载链接
链接失效反馈官方服务:
资源简介:
VLM-2 Orderless Balanced 5000是一个专门为VLM-2交通事故机动对微调设计的平衡子集数据集。该数据集包含5,000个示例,从无序VLM-2训练标签中采样得到,并保留了所有105个唯一的答案标签。采样过程以VLM-2答案标签为主要平衡依据,每个标签的基础上限设置为100个示例,平衡后最大标签计数不超过110,使用随机种子42确保可复现性。数据集文件包括用于Qwen模型微调的骨架文件、视频ID与答案标签的对应文件、包含选项和场景元数据的评估记录、视频问答记录、选定的共享视频ID列表以及采样和标签分布摘要。需要注意的是,该数据集仅提供标签和提示记录,不包含实际的视频文件;视频通过video_id或占位符路径进行引用。数据集语言为韩语,适用于视觉问答和视频分类任务,特别聚焦于交通事故分析、VLM(视觉语言模型)微调及平衡子集构建。
VLM-2 Orderless Balanced 5000 is a balanced subset dataset specifically designed for fine-tuning VLM-2 in traffic accident maneuver analysis. It contains 5,000 examples sampled from the unordered VLM-2 training labels, preserving all 105 unique answer labels. The sampling process balances based primarily on VLM-2 answer labels, with a base cap of 100 examples per label, ensuring a maximum label count of no more than 110 after balancing, and uses random seed 42 for reproducibility. Dataset files include a skeleton file for Qwen model fine-tuning, a mapping file for video IDs and answer labels, evaluation records with options and scene metadata, video question-answer records, a selected shared video ID list, and summaries of sampling and label distribution. Note that the dataset only provides labels and prompt records, not actual video files; videos are referenced via video_id or placeholder paths. The dataset language is Korean and is suitable for visual question answering and video classification tasks, with a particular focus on traffic accident analysis, VLM (Vision-Language Model) fine-tuning, and balanced subset construction.
创建时间:
2026-05-18
原始信息汇总
数据集概述:VLM-2 Orderless Balanced 5000
数据集地址:https://huggingface.co/datasets/jizerro/vlm2-orderless-balanced-5000
数据集简介
该数据集是VLM-2交通事故动作对微调数据集的一个平衡子集,包含5,000个样本,所有105个答案标签均被保留。采样主要依据VLM-2的答案标签进行平衡。
采样参数
- 目标样本数量:5,000
- 唯一答案标签数:105
- 每个标签的基础上限:100
- 平衡后每个标签的最大数量:110
- 随机种子:42
数据集用途
- 任务类型:视觉问答、视频分类
- 语言:韩语
- 标签:交通事故、VLM、Qwen、微调、平衡子集
数据集文件
数据集仅包含标签和提示记录,视频文件通过 video_id 或占位路径引用,不包含在内。具体文件如下:
train_vlm_2_orderless_balanced_5000_qwen_finetune.jsonl:Qwen微调骨架文件train_vlm_2_orderless_balanced_5000_label.jsonl:包含video_id和答案标签train_vlm_2_orderless_balanced_5000_eval_records.jsonl:包含选择项和场景元数据的评估记录train_vlm_2_orderless_balanced_5000_video_qa.jsonl:视频问答记录video_ids.txt:选定的共享视频ID列表summary.json:采样和标签分布摘要
数据集规模
- 样本数量:1,000 < 样本 < 10,000
搜集汇总
数据集介绍

构建方式
该数据集源于VLM-2交通事故事件中车辆操控动作配对任务的微调需求,通过从无序的VLM-2训练标签中精心采样构建而成。为保证类别均衡性,数据集以全部105个答案标签为分层依据,设定每个标签的基础容量上限为100个样本,并在平衡后允许单个标签最多包含110个样例,最终整合为5000条高质量记录。采样过程采用固定随机种子42,确保结果的可复现性。
特点
本数据集兼具均衡性与紧凑性,在有限的5000个样本中完整保留了105种操控动作配对答案标签,有效缓解了长尾分布对模型训练的不利影响。数据以JSONL格式组织,包含微调骨架、标签记录、视频问答记录及评估元数据等多种类型文件,便于用户根据任务需求灵活调用。需注意,数据集仅提供标签与提示文本,视频文件需通过标识符另行获取。
使用方法
使用时可加载微调骨架文件(如`train_vlm_2_orderless_balanced_5000_qwen_finetune.jsonl`)直接用于Qwen等视觉语言模型的指令微调。评估任务则依赖包含选项和场景元数据的评估记录文件,结合视频问答记录完成性能测试。用户需根据`video_ids.txt`中的标识符,自行将占位路径替换为实际视频文件路径,方可进行完整的视觉-语言联合训练或推理。
背景与挑战
背景概述
在自动驾驶与智能交通系统的快速发展中,交通事故场景的精细化理解成为视觉语言模型(VLM)领域的关键挑战之一。为支撑此类模型对复杂驾驶机动对(maneuver-pair)的识别与推理,韩国研究团队于近期构建了VLM-2 Orderless Balanced 5000数据集。该数据集源自VLM-2训练标签的无序集合,旨在通过均衡采样策略保留全部105种答案标签,以促进模型对罕见类别的学习能力。其核心研究问题在于如何在有限样本下实现交通事故场景中驾驶动作对的准确分类,从而提升VLM在真实交通环境中的鲁棒性与泛化能力。该数据集的发布为交通场景理解、细粒度动作识别及多模态问答提供了高质量的基准资源,对推动智能交通安全分析具有重要影响。
当前挑战
该数据集所解决的领域问题主要体现为交通场景中驾驶机动对识别的细粒度与不平衡性:传统方法常因高频类别主导而忽视低频但关键的事故模式,导致模型在罕见场景下性能骤降。构建过程中,团队面临的核心挑战包括:从海量无序标签中均衡抽取样本以维持105种标签的分布平衡,同时将样本量严格控制在5000例内;每类标签需设置上限为100至110例,以避免过采样带来的噪声干扰;此外,数据集仅提供标签与记录文件,视频数据需通过外部路径引用,增加了数据整合与模态对齐的复杂性。这些挑战共同要求采样策略在代表性、均衡性与实用性间取得精细权衡。
常用场景
经典使用场景
在自动驾驶与智能交通安全的研究领域中,VLM-2 Orderless Balanced 5000 数据集被广泛用于微调视觉语言模型(VLM),以提升其对交通事故中机动动作对(maneuver-pair)的识别能力。该数据集精心挑选了5000个样本,覆盖105种答案标签,并通过平衡采样策略妥善处理了类别分布不均衡的问题,从而为模型提供了高质量、多样化的训练样本。研究者通常基于该数据集构建视频问答与分类任务,使其在交通场景理解与危险行为分析中发挥关键作用。
衍生相关工作
围绕 VLM-2 Orderless Balanced 5000 数据集,衍生出一系列经典工作,包括基于 Qwen 系列模型的高效微调框架、面向不平衡场景的标签增强策略,以及视频-语言联合推理的对比学习算法。研究者还以此为基础,探索了多模态提示工程与零样本迁移学习在交通事故归因中的应用,推动了交通领域专用视觉语言模型的迭代。这些工作不仅验证了平衡子集对模型性能的提升效果,也为后续构建更大规模、更细粒度的交通事件理解数据集提供了方法论参考。
数据集最近研究
最新研究方向
VLM-2 Orderless Balanced 5000 数据集聚焦于交通安全领域中的视觉语言模型(VLM)微调与评估,其核心研究方向在于通过均衡采样策略(涵盖105种操作-事故答案标签)构建高质量、类别平衡的子集,以提升多模态模型在复杂交通场景下对事故行为识别的鲁棒性与泛化能力。该数据集与近期视觉问答(VQA)及视频理解领域的热点紧密相连,特别是在自动驾驶安全监控、智能交通系统等实际应用中,平衡数据集可有效缓解长尾分布导致的模型偏见问题。其意义在于为VLM的细粒度微调提供标准化基准,推动事故场景下视频理解与语言推理的交叉研究,进而促进更可靠、可解释的交通安全AI系统发展。
以上内容由遇见数据集搜集并总结生成



