xiang709/VRSBench|遥感图像理解数据集|视觉-语言模型数据集
收藏VRSBench 数据集概述
数据集基本信息
- 许可证: Creative Commons Attribution Non Commercial 4.0
- 任务类别: 视觉问答、文本生成
- 语言: 英语
- 名称: VRSBench
- 大小类别: 10K<n<100K
- 标签: 遥感、视觉语言模型
数据集内容
- 图像数量: 29,614 张遥感图像
- 对象标注: 52,472 个对象标注
- 视觉问答对: 312,221 对
数据集构建
- 属性提取: 从现有对象检测数据集中提取图像和对象信息。
- 提示工程: 设计指令以提示 GPT-4V 生成详细的图像标题、对象引用和问答对。
- GPT-4 推理: 使用 OpenAI API 自动生成图像标题、对象引用和问答对。
- 人工验证: 通过人工标注者验证 GPT-4V 生成的每个标注。
模型训练
- 基准模型: LLaVA-1.5, MiniGPT-v2, Mini-Gemini, GeoChat
- 微调: 在 RSVBench 数据集上对每个模型进行 5 个周期的微调,使用 LoRA 微调,秩为 64。
数据集影响
- 社会影响: 支持高级视觉语言模型的训练和评估,提升其在遥感中的应用能力。
- 偏见讨论: 尽管通过人工验证确保高质量标注,但视觉数据的解释可能存在主观偏见。
- 其他已知限制: 地理多样性受限于 DOTA-v2 和 DIOR 数据集覆盖的区域。
许可证信息
- 许可证: Creative Commons Attribution Non Commercial 4.0
未来工作
- 扩展计划: 计划将 VRSBench 扩展到包括红外图像、多光谱和超光谱图像、合成孔径雷达(SAR)图像和时间数据集在内的多种遥感数据类型。
引用信息
bibtex @misc{li2024vrsbench, title={VRSBench: A Versatile Vision-Language Benchmark Dataset for Remote Sensing Image Understanding}, author={Xiang Li, Jian Ding, Mohamed Elhoseiny}, year={2024}, eprint={xxx}, archivePrefix={arXiv}, primaryClass={cs.CV} }

中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
ChemBL
ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。
www.ebi.ac.uk 收录