five

CrowdVLM-R1 Dataset

收藏
github2025-04-09 更新2025-04-11 收录
下载链接:
https://github.com/yeyimilk/CrowdVLM-R1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于人群计数任务,包含大量训练图像和相同的测试图像。数据集示例图片可在README中查看。

This dataset is designed for the crowd counting task, containing a large number of training images and a set of identical test images. Sample images of the dataset can be viewed in the README.
创建时间:
2025-03-31
原始信息汇总

CrowdVLM-R1 数据集概述

数据集描述

  • 数据集名称:CrowdVLM-R1
  • 主要目标:通过Fuzzy Group Relative Policy Reward (FGRPR)框架增强视觉语言模型在人群计数任务中的能力
  • 核心创新:模糊奖励函数替代传统的0/1准确度奖励,提供更精细的激励

数据集内容

技术框架

  • 基于VLM-R1项目改进
  • 关键修改:src/open_r1/grpo_rec.py文件中的count_rewardcount_format_reward函数
  • 框架图示:
    • 总体框架示意图
    • 结合模糊奖励函数的GRPO详细框架图

性能表现

  • 在5个领域内数据集上超越所有基线模型(包括GPT4o、LLaMA2(90B)和SFT)
  • 在领域外数据集上表现与SFT相当,但在目标值较大时表现更优

引用信息

bib @misc{wang2025crowdvlmr1expandingr1ability, title={CrowdVLM-R1: Expanding R1 Ability to Vision Language Model for Crowd Counting using Fuzzy Group Relative Policy Reward}, author={Zhiqiang Wang and Pengbin Feng and Yanbin Lin and Shuzhang Cai and Zongao Bian and Jinghua Yan and Xingquan Zhu}, year={2025}, eprint={2504.03724}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2504.03724}, }

@misc{shen2025vlmr1, author = {Shen, Haozhan and Zhang, Zilun and Zhang, Qianqian and Xu, Ruochen and Zhao, Tiancheng}, title = {VLM-R1: A stable and generalizable R1-style Large Vision-Language Model}, howpublished = {https://github.com/om-ai-lab/VLM-R1}, note = {Accessed: 2025-02-15}, year = {2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在视觉语言模型领域,CrowdVLM-R1数据集的构建采用了创新的Fuzzy Group Relative Policy Reward (FGRPR)框架。该框架通过将Group Relative Policy Optimization (GRPO)与模糊奖励函数相结合,显著提升了模型的学习效率。数据集的具体构建过程包括从Google Drive获取原始数据,并在此基础上扩展了更多的训练图像,同时保持测试图像不变。研究人员还修改了VLM-R1项目中的奖励函数,以适配新的模糊奖励模型,从而生成更具区分度的训练数据。
特点
CrowdVLM-R1数据集最显著的特点在于其采用了模糊奖励机制,突破了传统二元0/1准确度奖励的局限。这种设计使得模型能够获得更精细的反馈,鼓励其产生更接近真实值的输出。实验证明,该数据集在五个领域内数据集上的表现超越了包括GPT4o、LLaMA2(90B)在内的多个基线模型。特别是在目标值较大的情况下,模糊奖励函数的优势更为明显,能够为接近真实值的预测分配更高的奖励。
使用方法
使用CrowdVLM-R1数据集时,研究者可以直接基于VLM-R1项目进行模型训练。需要注意的是,项目代码已经更新并进行了文件重组,因此建议将修改后的奖励函数`count_reward`和`count_format_reward`迁移至最新代码中。对于希望使用更大规模训练集的用户,可以通过联系作者获取包含更多训练图像的扩展版本。数据集的引用需要同时注明原始论文和VLM-R1项目,以确保学术规范的完整性。
背景与挑战
背景概述
CrowdVLM-R1数据集由Zhiqiang Wang等研究人员于2025年提出,旨在通过模糊群组相对策略奖励(FGRPR)框架增强视觉语言模型在人群计数任务中的表现。该数据集依托于VLM-R1项目的基础架构,通过引入模糊奖励机制替代传统的二元准确性奖励,显著提升了模型输出的精确度。实验证明,FGRPR框架在多个基准数据集上超越了包括GPT4o和LLaMA2(90B)在内的先进模型,为视觉语言模型在复杂场景下的应用提供了新的研究范式。
当前挑战
CrowdVLM-R1数据集面临的挑战主要集中在两个方面:领域问题的复杂性与数据构建的技术难度。人群计数任务需处理高密度、遮挡和视角变化等复杂场景,传统方法难以精确建模。数据构建过程中,模糊奖励函数的定义与优化需平衡激励的粒度与计算效率,同时确保跨数据集的泛化能力。此外,大规模训练图像的标注与质量控制也对数据集的可靠性提出了较高要求。
常用场景
经典使用场景
在计算机视觉与自然语言处理的交叉领域,CrowdVLM-R1数据集为视觉语言模型(VLM)在人群计数任务中的性能优化提供了关键支持。该数据集通过模糊奖励函数的设计,使得模型能够更精确地捕捉人群密度分布的细微差异,从而在复杂场景下实现更准确的计数预测。其经典使用场景包括密集人群监控、公共安全预警以及城市规划中的流量分析,为多模态学习提供了丰富的实验数据。
实际应用
该数据集的实际价值体现在智慧城市建设的多个维度。基于其训练的模型可实时分析监控视频中的人群密度,为地铁站、体育场馆等公共场所的安全管理提供决策支持。在零售领域,通过解析顾客分布热力图,商家能优化店铺布局和人员配置。此外,该技术还可延伸应用于交通流量监测、应急疏散路线规划等城市治理场景。
衍生相关工作
CrowdVLM-R1催生了多项重要研究进展,包括基于VLM-R1架构的稳定泛化模型改进,以及模糊奖励机制在多模态任务中的扩展应用。相关衍生工作探索了该数据集在细粒度图像描述生成、动态场景理解等方向的潜力,其中部分成果已应用于自动驾驶环境感知系统。这些研究共同推动了视觉语言模型在现实复杂场景中的实用化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作