InternVL-SA-1B-Caption
收藏魔搭社区2026-05-11 更新2024-12-28 收录
下载链接:
https://modelscope.cn/datasets/thomas/InternVL-SA-1B-Caption
下载链接
链接失效反馈官方服务:
资源简介:
version https://git-lfs.github.com/spec/v1
oid sha256:ee6a9dee0daa1724f1af7e1ca1b1a138745cce089311492f6c36539fccf8358b
size 4325
# InternVL-SA-1B-Caption 数据集卡片
## 概述
InternVL-SA-1B-Caption 数据集是一款双语数据集,依托[InternVL2-Llama3-76B](https://huggingface.co/OpenGVLab/InternVL2-Llama3-76B)模型构建而成。该数据集包含**1200万**组中英双语图像-文本对(image-caption pair),所有图像均源自[Meta的SA-1B数据集(Meta’s SA-1B dataset)](https://ai.meta.com/datasets/segment-anything/),其描述文本通过定制化提示生成,旨在最大限度减少模型幻觉,确保生成的描述严格基于图像中可见的内容。本数据集可用于图像描述生成、多语言学习以及多模态应用相关任务。
## 数据集构建
本数据集通过对SA-1B数据集中的图像生成中英双语描述文本构建完成。我们使用`InternVL2-Llama3-76B`模型,结合以下提示词生成准确的图像描述:
- **英文提示词**:"请基于给定图像生成准确的单段落描述,请勿使用多段或换行,避免生成推测性内容,确保描述仅基于图像中清晰可见的信息,严禁过度臆测。"
- **中文提示词**:"生成基于给定图像的准确单段描述。请勿使用多段或换行。避免生成带有推测性质的内容。确保描述基于图像中清晰可见的信息,避免过度推测。"
为加速生成流程,我们采用了[lmdeploy](https://github.com/InternLM/lmdeploy)推理框架,相比标准Transformers推理流水线实现了近10倍的速度提升。图像描述生成完成后,我们对数据进行了过滤,移除了异常样本(如长度异常过短或过长的描述文本,以及重复样本)。
## 图像来源(SA-1B)
所有图像均源自[Meta的SA-1B数据集(Meta’s SA-1B dataset)](https://ai.meta.com/datasets/segment-anything/)。如需获取SA-1B数据集,请遵循Meta官方发布的数据集下载与使用指南。
## 数据集文件结构
本数据集根据图像数量与语言分为四个主要文件:
| 文件名 | 数据规模 | 数据类型 | 语言 |
|-----------------------------------------------------|-----------|--------------------------|----------|
| `internvl_sa1b_caption_11m_single_image_en.jsonl` | 11M | 单图像描述 | 英语 |
| `internvl_sa1b_caption_1m_single_image_zh.jsonl` | 1M | 单图像描述 | 中文 |
| `internvl_sa1b_caption_77k_multi_image_en.jsonl` | 77K | 多图像描述 | 英语 |
| `internvl_sa1b_caption_77k_multi_image_zh.jsonl` | 77K | 多图像描述 | 中文 |
- **单图像描述**:此类文件中的每条描述文本对应单张图像。
- **多图像描述**:此类文件中的描述文本用于描述多张图像。
## 引用
如果您在研究中使用本数据集,请引用以下文献:
@article{chen2023internvl,
title={InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks},
author={Chen, Zhe and Wu, Jiannan and Wang, Wenhai and Su, Weijie and Chen, Guo and Xing, Sen and Zhong, Muyan and Zhang, Qinglong and Zhu, Xizhou and Lu, Lewei and Li, Bin and Luo, Ping and Lu, Tong and Qiao, Yu and Dai, Jifeng},
journal={arXiv preprint arXiv:2312.14238},
year={2023}
}
@article{chen2024far,
title={How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites},
author={Chen, Zhe and Wang, Weiyun and Tian, Hao and Ye, Shenglong and Gao, Zhangwei and Cui, Erfei and Tong, Wenwen and Hu, Kongzhi and Luo, Jiapeng and Ma, Zheng and others},
journal={arXiv preprint arXiv:2404.16821},
year={2024}
}
提供机构:
maas
创建时间:
2024-12-09



