lllchenlll/COCO_ARC
收藏Hugging Face2023-11-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lllchenlll/COCO_ARC
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是关于视觉-语言指令调优(VLIT)的综述和分析,涵盖了现有的VLIT数据集及其生成方法。数据集分为Annotation Adaption和Self-Instruct两大类,Annotation Adaption主要通过调整和重写现有注释数据来适应VLIT数据模板,而Self-Instruct则依赖大型语言模型(LLM)从更多来源合成注释数据,生成更具多样性和复杂性的VLIT数据。数据集进一步细分为通用指令和特定指令,特定指令包括对象/任务特定和领域特定。
提供机构:
lllchenlll
原始信息汇总
视觉-语言指令调优数据集概述
数据集概述
本文档提供了关于视觉-语言指令调优(VLIT)的相关数据集的详细信息。这些数据集主要用于训练和评估多模态语言模型,涵盖了从通用指令到特定领域指令的多种类型。
数据集分类
现有VLIT数据集
现有的VLIT生成方案可以分为两大类:
- Annotation Adaption:主要依赖于直接调整和重写现有标注数据以适应VLIT数据模板。
- Self-Instruct:依赖于大型语言模型(LLM)从更多来源合成标注数据,并重新组织以生成具有更多多样性和复杂性的VLIT数据(当然,这也带来了更多的噪声和幻觉)。
数据集结构
plaintext VLIT Data ├─ General Instruction │ ├─ Annotation Adaption │ └─ Self-Instruct ├─ Specific Instruction │ ├─ Object/Task-Specific │ │ ├─ Region │ │ ├─ Video │ │ └─ Text │ └─ Domain-Specific │ ├─ Medicine │ ├─ Document │ └─ PointCloud ├─ Construction Tools └─ Data Mixing



