lisawen/soybean_dataset
收藏机械化大豆收获质量图像数据集
数据集描述
该数据集包含在机械化收获大豆过程中捕获的图像,旨在促进机器视觉和深度学习模型在质量分析方面的发展。数据集包含不同形式的原大豆图片、大豆图片是否属于训练、验证或测试数据集的标签,以及大豆图片在一个数据集中的分割类别。
数据集组成
数据集包含40张原始收获大豆的图像,通过各种变换(如缩放、旋转、翻转、滤波和噪声添加)增强到800张图像。这些图像于2018年10月9日在山东省梁山梁丰粮棉种植专业合作社的大豆试验田中捕获。
数据结构
每个数据集包含两列:
original_image:包含800张大豆的JPG图像。segmentation_image:包含800张用颜色标记的PNG图像。绿色表示正常大豆,红色表示压碎的大豆,黄色表示杂质,黑色表示背景。
数据集来源
这些图像是在机械化收获过程中使用工业相机获取的,并由领域专家进行注释。
用途
该数据集旨在用于:
- 开发和改进机械化过程中大豆质量的在线检测模型。
- 分析大豆机械化过程。
- 训练用于图像分类和特征提取的深度学习算法。
超出范围的使用
该数据集不应用于非农业应用或超出机械化过程中大豆质量检测的上下文。
限制
该数据集仅包含大豆的原始图像和分割图像。分割图像仅是模型的输出,并非大豆、其背景和破碎谷物的真实或正确分类。换句话说,分割图像的正确性未经人工验证。
原始数据集结构
数据集分为三个主要文件夹:
JPEGImages:包含800张大豆的JPG图像。SegmentationClass:包含带有注释的PNG图像。ImageSets:包含数据分区的TXT记录。
数据收集和处理
主要目标是将所有文件合并到三个数据集(训练、测试、验证)中,每个数据集包含两列图像。首先编写一个包含所有图像标签的csv文件。然后根据csv文件将所有图像分成训练、测试、验证三个文件夹,每个文件夹包含两组文件:pictureid_original.jpg和pictureid_segmentation.jpg。所有数据处理代码上传在Project1_dataset.ipynb文件中。
数据集创建理由
创建该数据集的动机是需要一个反映机械化大豆收获真实条件的标准化数据集,用于质量检测研究。
注释过程
领域专家通过手动使用多边形注释对大豆图像的不同部分进行注释。
推荐
用户应遵循处理数据的道德准则,并在解释其模型的结果时考虑数据集的限制。
数据集卡片作者
陈曼、金成乾、倪有亮、杨腾祥、徐金山参与了数据集的准备和整理。
引用
Chen, M., Jin, C., Ni, Y., Yang, T., & Xu, J. (2024). A dataset of the quality of soybean harvested by mechanization for deep-learning-based monitoring and analysis. Data in Brief, 52, 109833. https://doi.org/10.1016/j.dib.2023.109833
致谢
本研究得到了国家自然科学基金、国家重点研发计划和江苏省自然科学基金的部分资助。




