Fields of The World (FTW)|农业监测数据集|实例分割数据集
收藏Fields of The World (FTW) 数据集概述
数据集基本信息
- 版本: v1.0.0
- 目的: 用于增强农业地块边界实例分割的机器学习模型开发,支持全球农业监测与评估。
- 覆盖范围: 欧洲、非洲、亚洲和南美洲的24个国家。
- 数据规模: 约160万地块边界,超过7万样本。
关键特性
- 多类别分割:
- 实例分割掩码:标识单个地块。
- 语义分割掩码:
- 二分类:背景和地块。
- 三分类:背景、地块和边界。
- 光谱丰富性: 包含Sentinel-2卫星图像的RGB和近红外(NIR)波段。
- 时间丰富性: 多时相影像,捕捉不同生长阶段。
- 数据划分: 训练集(80%)、验证集(10%)和测试集(10%),采用分块随机划分策略避免空间自相关。
数据结构
Fields of The World ├── README.md ├── [国家名称](如austria) │ ├── label_masks │ │ ├── instance │ │ ├── semantic_2class │ │ └── semantic_3class │ ├── s2_images │ │ ├── window_a │ │ └── window_b │ ├── chips_[国家名称].parquet │ └── data_config_[国家名称].json ├── [国家名称].zip └── checksum.md5
国家数据统计
| 国家 | 有效年份 | 地块数量 | 芯片数 | 训练集 | 验证集 | 测试集 | 数据许可 |
|---|---|---|---|---|---|---|---|
| 奥地利 | 2021 | 196101 | 6686 | 5304 | 637 | 745 | CC-BY-4.0 |
| 比利时 | 2021 | 63431 | 1941 | 1554 | 189 | 198 | 无限制 |
| 巴西 | 2020 | 1854 | 1607 | 1289 | 130 | 188 | CC-BY-4.0 |
| 柬埔寨 | 2021 | 318088 | 344 | 274 | 36 | 34 | CC-BY-4.0 |
| 克罗地亚 | 2023 | 157481 | 3482 | 2778 | 351 | 353 | 开放数据 |
| 丹麦 | 2021 | 37677 | 3560 | 2868 | 360 | 332 | CC0-1.0 |
| 爱沙尼亚 | 2021 | 26695 | 6713 | 5348 | 681 | 684 | CC-3.0 |
| 芬兰 | 2021 | 57323 | 5665 | 4527 | 550 | 588 | CC-BY-4.0 |
| 法国 | 2020 | 55342 | 3744 | 2988 | 360 | 396 | 开放许可 |
| 德国 | 2018/2019 | 4598 | 686 | 306 | 30 | 350 | DL-DE/BY-2-0 |
| 印度 | 2016 | 10013 | 2002* | 1281 | 300 | 399 | CC-BY-4.0 |
| 肯尼亚 | 2022 | 874 | 391 | 316 | 20 | 55 | GPL-2.0-or-later |
| 拉脱维亚 | 2021 | 44964 | 6938 | 5529 | 668 | 741 | CC-BY-NC-4.0 |
| 立陶宛 | 2021 | 61424 | 5258 | 4208 | 522 | 528 | 非商业用途 |
| 卢森堡 | 2022 | 29018 | 808 | 643 | 81 | 84 | CC0-1.0 |
| 荷兰 | 2022 | 43169 | 3879 | 3110 | 381 | 388 | CC0-1.0 |
| 葡萄牙 | 2021 | 5040 | 86 | 64 | 12 | 10 | CC-BY-NC-4.0 |
| 卢旺达 | 2021 | 1532 | 70 | 57 | 6 | 7 | CC-BY-4.0 |
| 斯洛伐克 | 2021 | 14242 | 4073 | 3275 | 390 | 408 | CC0-1.0 |
| 斯洛文尼亚 | 2021 | 67488 | 2177 | 1733 | 216 | 228 | CC-BY-4.0 |
| 南非 | 2018 | 6568 | 747 | 590 | 72 | 85 | CC-BY-NC-SA-4.0 |
| 西班牙 | 2020 | 258465 | 2440 | 2019 | 202 | 219 | CC-BY-4.0 |
| 瑞典 | 2021 | 39718 | 4760 | 3802 | 442 | 516 | 无限制 |
| 越南 | 2021 | 120913 | 288 | 229 | 36 | 23 | CC-BY-4.0 |
*注:印度有2002个芯片,其中22个标记为“无”划分,实际使用1980个芯片。

Stanford Cars
Cars数据集包含196类汽车的16,185图像。数据被分成8,144训练图像和8,041测试图像,其中每个类被大致分成50-50。类别通常在品牌,型号,年份,例如2012特斯拉Model S或2012 BMW M3 coupe的级别。
OpenDataLab 收录
GenshinVoice
GenshinVoice是一个包含原神游戏中所有语音文件及其对应文字文本的数据集。数据集直接从游戏中提取,包含多种语言版本,用于学习和研究目的。
github 收录
THCHS-30
“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”
OpenDataLab 收录
Photovoltaic power plant data
包括经纬度、电源板模型、NWP等信息。
github 收录
NIH Chest X-rays
Over 112,000 Chest X-ray images from more than 30,000 unique patients
kaggle 收录
