Fields of The World (FTW)|机器学习数据集|农业数据集
收藏Fields of The World (FTW) - Baselines Codebase
概述
Fields of The World (FTW) 是一个大规模基准数据集,旨在推动农业田地边界实例分割的机器学习模型的发展。该数据集支持全球农业监测、土地利用评估和环境研究中对准确和可扩展的田地边界数据的需要。
目录结构
Fields-of-The-World ├── .flake8 ├── .gitignore ├── CHANGELOGS.md ├── LICENSE ├── README.md ├── assets ├── configs │ └── example_config.yaml ├── environment.yml ├── inference.py ├── notebooks │ └── visualize_dataset.ipynb ├── pyproject.toml └── src ├── ftw │ ├── init.py │ ├── datamodules.py │ ├── datasets.py │ ├── metrics.py │ ├── trainers.py │ └── utils.py └── ftw_cli ├── init.py ├── cli.py ├── download.py ├── model.py └── unpack.py
系统设置
创建 Conda/Mamba 环境
bash mamba env create -f env.yml mamba activate ftw
验证 PyTorch 安装和 CUDA 可用性
bash python -c "import torch; print(torch.cuda.is_available())"
设置 FTW CLI
bash pip install -e .
数据集设置
下载并解压压缩版本
bash ftw download --help ftw unpack --help
数据集可视化
使用 visualize_dataset.ipynb 探索数据集。
实验准备
在运行实验之前,确保在 configs 目录中创建配置文件,并更新 datasets.py 中的 root 参数以反映正确的数据集路径。
实验
训练
从头开始训练模型
bash ftw model fit --config configs/example_config.yaml
从检查点恢复训练
bash ftw model fit --config configs/example_config.yaml --ckpt_path <Checkpoint File Path>
测试
bash ftw model test --gpu 0 --checkpoint_fn logs/path_to_model/checkpoints/last.ckpt --countries denmark finland --postprocess --output_fn results.csv
并行实验
使用 run_experiments.py 脚本在多个 GPU 上并行运行实验。
贡献
欢迎贡献!请 fork 仓库,进行更改并提交拉取请求。
许可证
该代码库在 MIT 许可证下发布。详见 LICENSE 文件。

ChemBL
ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。
www.ebi.ac.uk 收录
O*NET
O*NET(Occupational Information Network)是一个综合性的职业信息数据库,提供了关于各种职业的详细描述,包括技能要求、工作活动、知识领域、工作环境等。该数据集被广泛用于职业分析、教育和劳动力市场研究。
www.onetonline.org 收录
SMSSpamCollection
该数据集包含数千条标记为spam或ham(非垃圾邮件)的短信。它反映了日常通信的典型情况,并包含常见的垃圾邮件词汇,为评估文本分类模型提供了现实基础。
github 收录
World Values Survey (WVS)
世界价值观调查(World Values Survey, WVS)是一个跨国的、长期的学术调查项目,旨在研究全球不同国家和地区的社会、政治和文化价值观的变化。该调查涵盖了从1981年至今的多个波次,每次调查都包含一系列关于个人价值观、社会规范、政治态度、宗教信仰、家庭观念等方面的问题。数据集包括了来自全球100多个国家和地区的调查结果,提供了丰富的社会科学研究数据。
www.worldvaluessurvey.org 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
