five

LAMM|多模态学习数据集|自然语言处理数据集

收藏
OpenDataLab2025-04-05 更新2024-05-09 收录
多模态学习
自然语言处理
下载链接:
https://opendatalab.org.cn/LAMM/LAMM
下载链接
链接失效反馈
资源简介:
LAMM-Dataset 包括一个包含 186,098 个图像语言指令-响应对的图像指令调整数据集和一个包含 10,262 个点云语言指令-响应对的点云指令调整数据集。 我们从公开可用的数据集中收集图像和点云,并使用 GPT API 和自我指导方法根据这些数据集中的原始标签生成指令和响应。 生成的 LAMM 数据集具有三个吸引人的属性: 1. 现有的多模态指令调优数据集主要关注整体和粗略的信息。 为了强调细粒度和密集信息,我们添加了更多视觉信息,例如视觉关系和细粒度类别作为 GPT API 的输入。 2. 我们观察到现有的 MLLM 可能难以理解视觉任务指令。 为了解决这个问题,我们设计了一种将视觉任务注释转换为指令-响应对的方法,从而增强了 MLLM 对视觉任务指令的理解和泛化。 3. LAMM-Dataset 还包括用于常识性知识问答的数据对,方法是结合来自 Bamboo 数据集的分层知识图标签系统和相应的维基百科描述。
提供机构:
LAMM
创建时间:
2023-06-08
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

QM9

该数据集名为QM9,包含了134,000个分子的信息,可用于生成点云的建模工作,同时也可应用于分子动力学的研究以及点云生成任务中。

arXiv 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

UAVDT Dataset

The authors constructed a new UAVDT Dataset focused on complex scenarios with new level challenges. Selected from 10 hours raw videos, about 80, 000 representative frames are fully annotated with bounding boxes as well as up to 14 kinds of attributes (e.g., weather condition, flying altitude, camera view, vehicle category, and occlusion) for three fundamental computer vision tasks: object detection, single object tracking, and multiple object tracking.

datasetninja.com 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录