Mr. Preston and his sedan chair, Changde, Hunan, China, ca.1900-1919|历史照片数据集|传教士数据集
收藏LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
Granary
Granary是一个包含25种欧洲语言的大规模语音识别和翻译数据集,由NVIDIA等多家机构联合创建。数据集通过伪标签技术生成,旨在解决低资源语言的语音处理问题。数据集包含约643,237.57小时的语音数据,经过精心筛选和处理,旨在提高数据质量并减少数据中的错误。该数据集可用于自动语音识别(ASR)和自动语音翻译(AST)等领域的研究,有助于提高语音模型在低资源语言上的准确性和鲁棒性。
arXiv 收录
Oxford 102 Flowers
牛津102花卉数据集是一个主要用于图像分类的花卉集合数据集,分为102个类别,共102种花卉,其中每个类别包含40到258幅图像。 该数据集由牛津大学工程科学系2008年在相关论文 “大量类别上的自动花分类” 中发布
OpenDataLab 收录
中国逐日格点降水数据集V2(1960–2024,0.1°)
CHM_PRE V2数据集是一套高精度的中国大陆逐日格点降水数据集。该数据集基于1960年至今共3476个观测站的长期日降水观测数据,并纳入11个降水相关变量,用于表征降水的相关性。数据集采用改进的反距离加权方法,并结合基于机器学习的LGBM算法构建。CHM_PRE V2与现有的格点降水数据集(包括CHM_PRE V1、GSMaP、IMERG、PERSIANN-CDR和GLDAS)表现出良好的时空一致性。数据集基于63,397个高密度自动雨量站2015–2019年的观测数据进行验证,发现该数据集显著提高了降水测量精度,降低了降水事件的高估,为水文建模和气候评估提供了可靠的基础。CHM_PRE V2 数据集提供分辨率为0.1°的逐日降水数据,覆盖整个中国大陆(18°N–54°N,72°E–136°E)。该数据集涵盖1960–2024年,并将每年持续更新。日值数据以NetCDF格式提供,为了方便用户,我们还提供NetCDF和GeoTIFF格式的年度和月度总降水数据。
国家青藏高原科学数据中心 收录
