TorNet - 用于龙卷风检测与预测的基准数据集|龙卷风检测数据集|机器学习数据集
收藏数据集概述
数据集名称
- TorNet
数据集描述
- 用于龙卷风检测和预测的基准数据集,使用全分辨率极化天气雷达数据。
数据集下载
- 数据集分为10个文件,每个文件包含1年的数据,总计11个文件(包括一个目录CSV文件)。
- 数据集大小从3GB到19GB不等。
- 下载链接通过Zenodo提供,每个年份的数据集都有对应的下载链接。
数据集结构
- 下载并解压后,数据集应包含
catalog.csv
和10个名为tornet_YYYY.tar.gz
的文件。 - 解压后的目录应包含
catalog.csv
以及train/
和test/
子目录,其中包含每年的.nc
文件。
数据集使用
- 提供了Python环境设置指南,包括基本要求和特定库的安装说明。
- 提供了数据加载和可视化的Jupyter笔记本示例。
- 提供了训练和评估CNN基准模型的脚本和配置文件。
数据集评估
- 提供了预训练的CNN基准模型及其权重,用于评估测试集。
- 评估脚本可以计算并打印测试集上的各种指标。

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
MedChain
MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。
arXiv 收录
PlantVillage
在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。
OpenDataLab 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录