Global Forest Cover Change (GFCC) Dataset|森林覆盖变化数据集|环境监测数据集
收藏Dataset.png)
- 全球森林覆盖变化(GFCC)数据集首次发布,基于MODIS卫星数据,旨在监测全球森林覆盖的动态变化。
- GFCC数据集首次应用于联合国环境规划署(UNEP)的全球环境监测项目,为全球森林资源的可持续管理提供数据支持。
- GFCC数据集更新至2010年,增加了高分辨率数据层,提升了数据集的空间分辨率和精度。
- GFCC数据集被纳入全球森林观察(Global Forest Watch)平台,成为全球森林监测和保护的重要工具。
- GFCC数据集再次更新,涵盖了2000年至2020年的森林覆盖变化数据,为全球气候变化研究和政策制定提供了重要依据。
OECD - Education at a Glance
该数据集提供了关于教育系统在不同国家和地区的详细统计数据,包括教育支出、教育参与率、教育成果、教师资源等多个方面。数据涵盖了OECD成员国以及部分非成员国。
www.oecd.org 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录
FSDD
FSDD(Free Spoken Digit Dataset)是一个开源的语音数据集,包含由不同说话者朗读的数字0到9的音频文件。该数据集旨在用于语音识别和机器学习算法的训练和测试。
github.com 收录
Med-MAT
Med-MAT是一个包含106个开源医学数据集的视觉问答(VQA)数据集,旨在推动医学多模态大语言模型(MLLMs)的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式,展示了组合泛化(CG)是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务(MAT)分类的子集的问答对,以及部分数据集的图像下载链接。
huggingface 收录