云浮市各县(市、区)卫生院、社区卫生服务中心在岗职工数信息
收藏PASCAL VOC 2007
这个挑战的目标是从现实场景中的许多视觉对象类别中识别对象(即不是预先分割的对象)。它基本上是一个监督学习问题,因为它提供了一组标记图像的训练集。已选择的 20 个对象类别是: 人:人 动物:鸟、猫、牛、狗、马、羊 交通工具:飞机、自行车、船、公共汽车、汽车、摩托车、火车 室内:瓶子、椅子、餐桌、盆栽、沙发、电视/显示器 将有两个主要比赛和两个较小规模的“品酒师”比赛。内容:提供的训练数据由一组图像组成;每个图像都有一个注释文件,为图像中存在的 20 个类别之一中的每个对象提供一个边界框和对象类别标签。请注意,来自多个类的多个对象可能出现在同一图像中。
OpenDataLab 收录
MMOral
MMOral是一个针对全景X光片解读的大规模多模态指令数据集和基准。它包括20,563张带有1.3百万条指令跟随实例的注释图像,涵盖了多种任务类型,如属性提取、报告生成、视觉问答和基于图像的对话。此外,我们还提出了MMOral-Bench,这是一个涵盖牙科五个关键诊断维度的综合评估套件。我们评估了64个LVLMs在MMOral-Bench上的表现,发现即使是表现最好的模型GPT-4o,也只能达到41.45%的准确率,这揭示了当前模型在这一领域的显著局限性。为了促进该特定领域的发展,我们还提出了OralGPT,它使用我们精心策划的MMOral指令数据集对Qwen2.5-VL-7B进行监督微调。值得注意的是,一个SFT周期就为LVLMs带来了显著的性能提升,例如,OralGPT表现出24.73%的改进。MMOral和OralGPT都具有作为智能牙科关键基础的巨大潜力,并使牙科领域中的多模态AI系统更具临床意义。数据集、模型、基准和评估套件可在上述网址获取。
arXiv 收录
中国逐日格点降水数据集V2(1960–2024,0.1°)
CHM_PRE V2数据集是一套高精度的中国大陆逐日格点降水数据集。该数据集基于1960年至今共3476个观测站的长期日降水观测数据,并纳入11个降水相关变量,用于表征降水的相关性。数据集采用改进的反距离加权方法,并结合基于机器学习的LGBM算法构建。CHM_PRE V2与现有的格点降水数据集(包括CHM_PRE V1、GSMaP、IMERG、PERSIANN-CDR和GLDAS)表现出良好的时空一致性。数据集基于63,397个高密度自动雨量站2015–2019年的观测数据进行验证,发现该数据集显著提高了降水测量精度,降低了降水事件的高估,为水文建模和气候评估提供了可靠的基础。CHM_PRE V2 数据集提供分辨率为0.1°的逐日降水数据,覆盖整个中国大陆(18°N–54°N,72°E–136°E)。该数据集涵盖1960–2024年,并将每年持续更新。日值数据以NetCDF格式提供,为了方便用户,我们还提供NetCDF和GeoTIFF格式的年度和月度总降水数据。
国家青藏高原科学数据中心 收录
ERIC (Education Resources Information Center)
ERIC (Education Resources Information Center) 是一个广泛的教育文献数据库,包含超过130万条记录,涵盖从1966年至今的教育研究、政策和实践。数据集内容包括教育相关的期刊文章、书籍、研究报告、会议论文、技术报告、政策文件等。
eric.ed.gov 收录
UCF-Crime
UCF-犯罪数据集是128小时视频的新型大规模第一个数据集。它包含1900年长而未修剪的真实世界监控视频,其中包含13个现实异常,包括虐待,逮捕,纵火,殴打,道路交通事故,入室盗窃,爆炸,战斗,抢劫,射击,偷窃,入店行窃和故意破坏。之所以选择这些异常,是因为它们对公共安全有重大影响。这个数据集可以用于两个任务。首先,考虑一组中的所有异常和另一组中的所有正常活动的一般异常检测。第二,用于识别13个异常活动中的每一个。
OpenDataLab 收录
