GrokLST|地表温度数据集|卫星遥感数据集
收藏GrokLST 数据集概述
数据集下载
- Baidu Disk: GrokLST dataset
数据集结构
文件夹结构
shell
data
├──black_river_lst (每个文件夹下有641个mat文件)
├── 30m
│ ├── guidance (引导信息)
│ ├── lst (LST数据)
├── 60m
│ ├── guidance
│ ├── lst
├── 120m
│ ├── guidance
│ ├── lst
├── 240m
│ ├── guidance
│ ├── lst
├── split (train:val:test=6:1:3)
│ ├── train.txt
│ ├── val.txt
│ ├── trainval.txt (tarin+val)
│ ├── test.txt
├── README_BRLST.md
数据详情
- guidance 文件夹: 包含10种辅助引导波段信息,按通道拼接,顺序为"dem", "deepblue", "blue", "green", "red", "vre", "nir", "ndmvi", "ndvi", "ndwi"。
- lst 文件夹: 包含LST数据,其中"30m"分辨率的LST数据为GT,其他分辨率的LST数据为低分辨率数据。
- split 文件夹: 数据集划分策略,train:val:test=6:1:3,trainval:test=7:3。
数据集详情表
分辨率 | scale | crop size | crop step | h/w | guidance.shape (h,w,c) |
---|---|---|---|---|---|
30m | - | 512 | 256 | 512 | 512x512x10 |
60m | x2 | 256 | 128 | 256 | 256x256x10 |
120m | x4 | 128 | 64 | 128 | 128x128x10 |
240m | x8 | 64 | 32 | 64 | 64x64x10 |

- 1GrokLST: Towards High-Resolution Benchmark and Toolkit for Land Surface Temperature Downscaling南京理工大学计算机科学与工程学院 · 2024年
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
腾讯词向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases)
这些语料库的最新版本提供了100维度和200维度的向量表示形式,也就是嵌入,适用于中文和英文。具体来说,有超过1200万个中文单词和短语以及650万个英语单词和短语,它们是在大规模高质量数据上进行预先培训的。这些向量捕获单词和短语的语义含义,可以广泛应用于许多下游任务 (例如,命名实体识别和文本分类) 以及进一步的研究中。
OpenDataLab 收录