ceyda/smithsonian_butterflies|昆虫学数据集|图像识别数据集
收藏数据集概述
数据集名称
- 名称: Smithsonian Butterflies
数据集属性
- 语言: 英语
- 多语言性: 单语种
- 许可证: CC0-1.0
- 数据集大小: 小于1000条记录
- 数据源: 原始数据
任务类别
- 任务类别: 图像分类
- 任务ID: 多标签图像分类
数据集结构
数据实例
- 示例数据: 包含图像URL、图像描述、唯一ID、名称、科学名称、分类、来源等信息。
数据字段
- sim-score: 用于区分非蝴蝶图像的相似度分数。
数据分割
- 分割情况: 未明确分割。
数据集创建
源数据
- 数据收集: 从Smithsonian "Education and Outreach" & "NMNH - Entomology Dept." 在线收藏中爬取。
注释
- 注释创建者: 专家生成
使用数据集的考虑
已知限制
- 限制: 不包含所有蝴蝶物种。

LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
HyperGlobal-450K - 全球最大规模高光谱图像数据集
HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建,是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像,规模等价于超过2000万张不重叠的三波段图像,远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像,包括来自地球观测一号(EO-1)Hyperion和高分五号(GF-5B)两种传感器的图像,光谱范围从可见光到短波及中波红外,具有从紫外到长波红外的330个光谱波段,空间分辨率为30米。每幅图像经过精心处理,去除了无效波段和水汽吸收波段,保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究,还能够用于开发和测试各种高光谱图像处理方法,比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。
github 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录