MME-RealWorld|图像注释数据集|机器学习基准数据集
收藏MME-RealWorld 数据集概述
数据集详情
MME-RealWorld 是一个精心设计的基准数据集,旨在解决现实世界应用中的实际问题。该数据集具有以下特点:
-
数据规模:
- 由32名志愿者手动标注,包含29,429个针对现实场景的问答对,是目前已知最大的完全人工标注的基准数据集。
-
数据质量:
- 分辨率:包含13,366张平均分辨率为2,000 × 1,500像素的高分辨率图像,有助于提供有意义的人类辅助。
- 标注:所有标注均由专业团队手动完成,并进行交叉检查以确保数据质量。
-
任务难度和现实世界实用性:
- 即使是目前最先进的模型,准确率也未超过60%。
- 许多现实世界任务的难度远超传统基准数据集中的任务,例如视频监控中需要计数133辆车辆,或在遥感中识别和计数地图上平均分辨率超过5000×5000的小物体。
-
MME-RealWord-CN:
- 针对现有中文基准数据集通常从英文版本翻译而来的局限性,收集了聚焦于中国场景的额外图像,并由中国志愿者进行标注,共包含5,917个问答对。
使用方法
由于图像文件较大且已被分割成多个压缩部分,请首先将相同名称的压缩文件合并,然后一起提取。
bash #!/bin/bash
导航到包含分割文件的目录
cd TARFILES
循环处理每个分割文件集
for part in *.tar.gz.part_aa; do # 提取文件的基本名称 base_name=$(basename "$part" .tar.gz.part_aa)
# 将分割文件合并为一个存档
cat "${base_name}".tar.gz.part_* > "${base_name}.tar.gz"
# 提取合并后的存档
tar -xzf "${base_name}.tar.gz"
# 可选:删除临时的合并存档
rm "${base_name}.tar.gz"
done

中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
开源PHM数据集
本文分享了一个全球各大学、研究机构和公司捐赠的PHM(Prognostics and Health Management)开源数据集,涵盖加工制造、轨道交通、能源电力和半导体等行业的多种场景,包含部件级、设备级和产线级数据。用户可以利用这些数据开发智能分析和建模算法,数据集分类包括故障诊断、健康评估和寿命预测。
github 收录
CMNEE(Chinese Military News Event Extraction dataset)
CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。
github 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
中国车牌识别数据集(7类,33万张)
这是一个高质量、平衡的中国车牌识别数据集,包含了33万张各类中国车牌的图片。数据集经过精心设计,确保了图像质量的优秀和大部分各类车牌类型的平衡分布。这个数据集非常适合用于训练和评估车牌识别模型。
魔搭社区 收录