lisawen/soybean_dataset|农业数据集|图像分割数据集
收藏机械化大豆收获质量图像数据集
数据集描述
该数据集包含在机械化收获大豆过程中捕获的图像,旨在促进机器视觉和深度学习模型在质量分析方面的发展。数据集包含不同形式的原大豆图片、大豆图片是否属于训练、验证或测试数据集的标签,以及大豆图片在一个数据集中的分割类别。
数据集组成
数据集包含40张原始收获大豆的图像,通过各种变换(如缩放、旋转、翻转、滤波和噪声添加)增强到800张图像。这些图像于2018年10月9日在山东省梁山梁丰粮棉种植专业合作社的大豆试验田中捕获。
数据结构
每个数据集包含两列:
original_image
:包含800张大豆的JPG图像。segmentation_image
:包含800张用颜色标记的PNG图像。绿色表示正常大豆,红色表示压碎的大豆,黄色表示杂质,黑色表示背景。
数据集来源
这些图像是在机械化收获过程中使用工业相机获取的,并由领域专家进行注释。
用途
该数据集旨在用于:
- 开发和改进机械化过程中大豆质量的在线检测模型。
- 分析大豆机械化过程。
- 训练用于图像分类和特征提取的深度学习算法。
超出范围的使用
该数据集不应用于非农业应用或超出机械化过程中大豆质量检测的上下文。
限制
该数据集仅包含大豆的原始图像和分割图像。分割图像仅是模型的输出,并非大豆、其背景和破碎谷物的真实或正确分类。换句话说,分割图像的正确性未经人工验证。
原始数据集结构
数据集分为三个主要文件夹:
JPEGImages
:包含800张大豆的JPG图像。SegmentationClass
:包含带有注释的PNG图像。ImageSets
:包含数据分区的TXT记录。
数据收集和处理
主要目标是将所有文件合并到三个数据集(训练、测试、验证)中,每个数据集包含两列图像。首先编写一个包含所有图像标签的csv文件。然后根据csv文件将所有图像分成训练、测试、验证三个文件夹,每个文件夹包含两组文件:pictureid_original.jpg
和pictureid_segmentation.jpg
。所有数据处理代码上传在Project1_dataset.ipynb
文件中。
数据集创建理由
创建该数据集的动机是需要一个反映机械化大豆收获真实条件的标准化数据集,用于质量检测研究。
注释过程
领域专家通过手动使用多边形注释对大豆图像的不同部分进行注释。
推荐
用户应遵循处理数据的道德准则,并在解释其模型的结果时考虑数据集的限制。
数据集卡片作者
陈曼、金成乾、倪有亮、杨腾祥、徐金山参与了数据集的准备和整理。
引用
Chen, M., Jin, C., Ni, Y., Yang, T., & Xu, J. (2024). A dataset of the quality of soybean harvested by mechanization for deep-learning-based monitoring and analysis. Data in Brief, 52, 109833. https://doi.org/10.1016/j.dib.2023.109833
致谢
本研究得到了国家自然科学基金、国家重点研发计划和江苏省自然科学基金的部分资助。

中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
PlantVillage
在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。
OpenDataLab 收录