five

Cambrian-10M

收藏
OpenCSG2024-07-19 更新2026-01-19 收录
下载链接:
https://opencsg.com/datasets/AIWizards/Cambrian-10M?tab=summary
下载链接
链接失效反馈
官方服务:
资源简介:
Cambrian-10M专注于多模态指令微调,旨在解决高质量多模态指令微调数据稀缺的问题,并维持多模态大型语言模型(LLM)的语言能力。它包含约978.4万个数据点,数据来源于视觉问答(VQA)和光学字符识别(OCR)等多模态基准数据集、社区贡献的少量高质量纯语言指令跟随数据,以及通过特定互联网数据引擎生成的数据。该引擎通过选定领域和子领域,识别主题,搜索可靠来源,提取图文关联,并生成问答对来创建知识型的多模态指令微调数据。此外,还整合了GPT-4v和GPT-4o等MLLM生成扩展回复和自由形式的指令微调数据。Cambrian-10M支持视觉问答等任务,并提供了原始的Cambrian10M和经过整理的Cambrian7M两种版本,推荐使用带有系统提示的Cambrian7M版本。该数据集采用Apache-2.0授权许可。
提供机构:
AIWizards
创建时间:
2024-07-19
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作