多个数据集
收藏github2024-09-19 更新2024-09-20 收录
下载链接:
https://github.com/digbangbang/Qwen2-vl-sft
下载链接
链接失效反馈官方服务:
资源简介:
该仓库包含多个用于测试和评估Qwen2-vl模型的数据集,包括但不限于lixi_test_1229_183191、face_disney_pixal_boys_183111等。这些数据集用于下游任务(如标注),并且被用于与GPT-4o进行性能比较。
This repository contains multiple datasets for testing and evaluating the Qwen2-vl model, including but not limited to lixi_test_1229_183191, face_disney_pixal_boys_183111, and others. These datasets are utilized for downstream tasks (e.g., annotation) and for performance comparison against GPT-4o.
创建时间:
2024-09-18
原始信息汇总
Qwen2-vl-sft 数据集概述
数据集描述
- 数据集名称: Qwen2-vl-sft
- 数据来源: 内部公司数据
- 数据用途: 用于下游任务(标注)的微调
- 数据规模: 约1100 A100 GPU小时
- 实验配置: 2个节点,每个节点8个A100 GPU,实验持续2天20小时
数据集性能
- 测试结果: 在专用数据集上测试,性能优于GPT-4o
模型与数据集性能对比
| 模型/数据集 | mean_score | lixi_test_1229_183191 | face_disney_pixal_boys_183111 | secure_sexyxjj_fp_1222_182501 | secure_sexyxjj_fn_1222_182443 | secure_white_pic_230711_2000_181421 | secure_white_pic_230711_2000_181422 | ocr_sec_txiang_contact_231218_181486 | secure_normal_trainset_180944 | secure_normal_validset_180821 | face_huhang_helmet_tie_train_3_183171 | face_pixar_20231207_180654 | gun_knife_detec_co_1_179790 | secure_xjj_compensate_1206_180420 | face_pattern_mask_2023_179911 | draw_240_round2_eyeball_crop_filter_outer_179901 | image_app_tagreversenormal_1018_1025_5k_179059 | secure_logop2p3_cls_v3_diedai_crop_178502 | ocr_sec_txiang_contact_231128_178725 | ocr_sec_txiang_lowrisk_231128_178416 | secure_smoke_detection_v10_178130 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| gpt4o | 68.2 | 94 | 60 | 51 | 80 | 70.8 | 98 | 0(违规信息) | 89 | 89 | 30 | 31 | 84 | 44 | 97 | 0(无法推理) | 18 | 63 | 79 | 90 | 60 |
| Qwen2-vl | 23.9 | 0 | 44.2 | 4.6 | 75.4 | 12.5 | 13.8 | 91.2 | 43.4 | 41 | 25.6 | 15.2 | 0 | 1 | 87.2 | 4.12 | 1.8 | 97.4 | 13.8 | 3.2 | 0.6 |
| Qweb2-vl-mix(1000) | 58.1 | 89.4 | 36.4 | 67.8 | 80.8 | 75 | 93.2 | 56.2 | 78.4 | 82.6 | 58.8 | 16.6 | 56.2 | 69 | 99.2 | 2.6 | 13.4 | 98 | 1 | 11 | 20.2 |
| Qweb2-vl-mix(2000) | 62.2 | 72 | 9.6 | 67.8 | 83.6 | 72.9 | 97.4 | 87.8 | 92.6 | 93.4 | 62.2 | 16.6 | 28 | 66.4 | 99.8 | 3.47 | 54.2 | 98 | 19.6 | 66.4 | 19.8 |
| Qweb2-vl-mix(3000)⭐️ | 69.1 | 86 | 56 | 67.8 | 82.6 | 70.8 | 97.6 | 90.6 | 93 | 92.4 | 67 | 16.6 | 81.2 | 66.2 | 99.6 | 5.21 | 60 | 98 | 19.2 | 69.8 | 21.2 |
| Qweb2-vl-mix(3370) | 67.8 | 76.2 | 56 | 67.8 | 81.4 | 72.9 | 96.6 | 90.6 | 90.6 | 92.6 | 66.2 | 16.6 | 76 | 66.6 | 99.6 | 4.99 | 59.2 | 98 | 18.8 | 68 | 19 |
| Qweb2-vl-full(1000) | 41.0 | 0 | 0 | 51 | 79.4 | 58.3 | 88.6 | 5 | 45.2 | 45.6 | 37 | 16.6 | 0 | 61.6 | 99 | 0 | 6.4 | 97.4 | 14 | 7.2 | 31.4 |
| Qweb2-vl-full(2000) | 55.4 | 2.2 | 57.6 | 67.8 | 80 | 62.5 | 93.4 | 90.4 | 82.8 | 88.2 | 30.8 | 16.6 | 10.2 | 66.4 | 99.2 | 5.21 | 35.2 | 98.2 | 19.4 | 73.4 | 14.2 |
| Qweb2-vl-full(3000) | 62.0 | 92.4 | 46.2 | 67.8 | 80.6 | 62.5 | 91.8 | 83.8 | 83.8 | 88 | 31.8 | 16.4 | 62.6 | 71.6 | 99.2 | 5.21 | 23.8 | 98 | 19 | 50.6 | 30 |
| Qweb2-vl-full(3370) | 64.9 | 97.6 | 44 | 67.8 | 80.8 | 62.5 | 92.4 | 84.6 | 84.6 | 89.2 | 60.8 | 16 | 70.4 | 71 | 99.2 | 16.9 | 26.2 | 98.2 | 20.8 | 56 | 31 |
搜集汇总
数据集介绍

构建方式
该数据集的构建过程涉及对Qwen2-vl模型进行监督微调(SFT),利用内部公司数据进行下游任务的微调,如标注任务。实验中使用了约1100个A100 GPU小时,通过2个节点,每个节点配备8个A100 GPU,实验持续了2天20小时。此外,更新后的实验使用了8个节点,每个节点8个A100 GPU,实验在20小时内完成。
特点
该数据集显著特点在于其专门设计的测试集,能够超越GPT-4o的表现。数据集包括多个子集,如lixi_test_1229_183191、face_disney_pixal_boys_183111等,每个子集针对特定任务进行优化。数据集的多样性和高质量确保了模型在多种场景下的有效性。
使用方法
使用该数据集时,用户可以参考README文件中的详细说明,了解如何加载和处理数据。数据集的子集可以根据具体任务需求进行选择和组合。此外,用户可以利用LLaMA-Factory提供的代码进行进一步的模型微调和优化,以适应特定的应用场景。
背景与挑战
背景概述
Qwen2-vl-sft数据集是由美团实习生在实习期间创建的,旨在通过SFT(监督微调)技术对Qwen2-vl模型进行微调,以提升其在下游任务(如标注)中的表现。该数据集的构建利用了公司内部数据,并进行了大规模的实验验证,耗时约1100 A100 GPU小时。实验结果表明,经过微调的Qwen2-vl模型在特定数据集上能够超越GPT-4o,显示出其在图像处理和分类任务中的潜力。
当前挑战
Qwen2-vl-sft数据集在构建过程中面临多项挑战。首先,数据集的构建依赖于公司内部数据,这限制了其公开性和可访问性。其次,大规模的GPU资源消耗(约1100 A100 GPU小时)增加了实验的成本和复杂性。此外,尽管实验结果显示了模型的优越性,但如何在更广泛的应用场景中验证其有效性仍是一个待解决的问题。最后,数据集的更新和维护需要持续的资源投入,以确保其长期的有效性和适用性。
常用场景
经典使用场景
在计算机视觉与自然语言处理(NLP)的交叉领域,Qwen2-vl-sft数据集被广泛用于微调视觉语言模型,以提升其在下游任务中的表现。具体而言,该数据集通过内部公司数据进行微调,旨在优化模型在标注任务中的准确性。其经典使用场景包括图像标注、内容审核以及安全检测等,这些任务对模型的精确性和效率有较高要求。
解决学术问题
Qwen2-vl-sft数据集在学术研究中解决了视觉语言模型在实际应用中的泛化能力和效率问题。通过大规模的GPU计算资源,该数据集能够显著提升模型在多节点环境下的训练速度和效果,从而为研究者提供了一个高效的实验平台。此外,其与GPT-4o的对比实验结果展示了在特定任务上的优越性能,为视觉语言模型的进一步优化提供了实证支持。
衍生相关工作
基于Qwen2-vl-sft数据集,研究者们开展了一系列相关工作,包括但不限于模型优化、多模态数据融合以及大规模并行计算等。例如,LLaMA-Factory项目借鉴了该数据集的实验方法,实现了对多种语言模型的高效微调。这些衍生工作不仅推动了视觉语言模型的发展,也为其他领域的多模态数据处理提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



