OmniMedVQA - 大规模医学VQA评测数据集|医学VQA数据集|多模态评测数据集
收藏数据集概述
OmniMedVQA
- 数据集内容: 包含118,010张图像,127,995个QA项,覆盖12种不同模态,涉及超过20个人体解剖区域。
- 数据集下载: 链接
- 模型数量: 包含8个通用领域LVLM和4个医学专业LVLM。
Tiny LVLM-eHub
- 数据集内容: 随机选择50个样本,总计2.1K样本,涉及42个文本相关的视觉基准。
- 模型数量: 总计12个模型,包括Google Bard。
- 评估方法: 采用ChatGPT Ensemble Evalution,相比之前的词匹配方法,与人类评估的协议有所改进。
LVLM-eHub
- 数据集内容: 评估8个公开的大型多模态模型(LVLM),涉及6类多模态能力,使用47个数据集和1个在线平台。
- 模型数量: 8个LVLM。
LVLM Leaderboard
- 评估能力: 包括视觉感知、视觉推理、视觉常识、视觉知识获取和对象幻觉。
- 模型排名: 包括InternVL、InternLM-XComposer-VL、Bard等模型。
- 数据集下载: 链接
更新信息
- 2024年3月31日: 发布OmniMedVQA,一个大规模的医学LVLM综合评估基准,包含8个通用领域LVLM和4个医学专业LVLM。
- 2023年10月16日: 从LVLM-eHub中提取的能力级数据集分割,并增加了8个最近发布的模型。
- 2023年8月8日: 发布Tiny LVLM-eHub,开源评估源代码和模型推理结果。
- 2023年6月15日: 发布LVLM-eHub,一个大型视觉语言模型的评估基准。
支持的多模态模型
- MiniGPT-4
- BLIP2
- InstructBLIP
- mPLUG-Owl
- Otter
- LLaVA
- llama_adapter_v2
- VPGTrans

CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录
China Groundgroundwater Monitoring Network
该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。
www.ngac.org.cn 收录
中国高分辨率高质量PM2.5数据集(2000-2023)
ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。
国家青藏高原科学数据中心 收录