five

lisawen/soybean_dataset|农业数据集|图像分割数据集

收藏
hugging_face2024-03-01 更新2024-03-04 收录
农业
图像分割
下载链接:
https://hf-mirror.com/datasets/lisawen/soybean_dataset
下载链接
链接失效反馈
资源简介:
该数据集包含在机械化大豆收获过程中捕获的图像,旨在促进机器视觉和深度学习模型的质量分析开发。数据集包含40张原始大豆图像,通过缩放、旋转、翻转、过滤和噪声添加等变换增强至800张图像。图像于2018年10月9日在中国山东梁山良丰粮棉种植专业合作社的大豆试验田拍摄。每张数据集包含两列:original_image包含800张大豆的JPG图像,segmentation_image包含800张用颜色标记的PNG图像,绿色表示正常大豆,红色表示压碎大豆,黄色表示杂质,黑色表示背景。

该数据集包含在机械化大豆收获过程中捕获的图像,旨在促进机器视觉和深度学习模型的质量分析开发。数据集包含40张原始大豆图像,通过缩放、旋转、翻转、过滤和噪声添加等变换增强至800张图像。图像于2018年10月9日在中国山东梁山良丰粮棉种植专业合作社的大豆试验田拍摄。每张数据集包含两列:original_image包含800张大豆的JPG图像,segmentation_image包含800张用颜色标记的PNG图像,绿色表示正常大豆,红色表示压碎大豆,黄色表示杂质,黑色表示背景。
提供机构:
lisawen
原始信息汇总

机械化大豆收获质量图像数据集

数据集描述

该数据集包含在机械化收获大豆过程中捕获的图像,旨在促进机器视觉和深度学习模型在质量分析方面的发展。数据集包含不同形式的原大豆图片、大豆图片是否属于训练、验证或测试数据集的标签,以及大豆图片在一个数据集中的分割类别。

数据集组成

数据集包含40张原始收获大豆的图像,通过各种变换(如缩放、旋转、翻转、滤波和噪声添加)增强到800张图像。这些图像于2018年10月9日在山东省梁山梁丰粮棉种植专业合作社的大豆试验田中捕获。

数据结构

每个数据集包含两列:

  • original_image:包含800张大豆的JPG图像。
  • segmentation_image:包含800张用颜色标记的PNG图像。绿色表示正常大豆,红色表示压碎的大豆,黄色表示杂质,黑色表示背景。

数据集来源

这些图像是在机械化收获过程中使用工业相机获取的,并由领域专家进行注释。

用途

该数据集旨在用于:

  • 开发和改进机械化过程中大豆质量的在线检测模型。
  • 分析大豆机械化过程。
  • 训练用于图像分类和特征提取的深度学习算法。

超出范围的使用

该数据集不应用于非农业应用或超出机械化过程中大豆质量检测的上下文。

限制

该数据集仅包含大豆的原始图像和分割图像。分割图像仅是模型的输出,并非大豆、其背景和破碎谷物的真实或正确分类。换句话说,分割图像的正确性未经人工验证。

原始数据集结构

数据集分为三个主要文件夹:

  • JPEGImages:包含800张大豆的JPG图像。
  • SegmentationClass:包含带有注释的PNG图像。
  • ImageSets:包含数据分区的TXT记录。

数据收集和处理

主要目标是将所有文件合并到三个数据集(训练、测试、验证)中,每个数据集包含两列图像。首先编写一个包含所有图像标签的csv文件。然后根据csv文件将所有图像分成训练、测试、验证三个文件夹,每个文件夹包含两组文件:pictureid_original.jpgpictureid_segmentation.jpg。所有数据处理代码上传在Project1_dataset.ipynb文件中。

数据集创建理由

创建该数据集的动机是需要一个反映机械化大豆收获真实条件的标准化数据集,用于质量检测研究。

注释过程

领域专家通过手动使用多边形注释对大豆图像的不同部分进行注释。

推荐

用户应遵循处理数据的道德准则,并在解释其模型的结果时考虑数据集的限制。

数据集卡片作者

陈曼、金成乾、倪有亮、杨腾祥、徐金山参与了数据集的准备和整理。

引用

Chen, M., Jin, C., Ni, Y., Yang, T., & Xu, J. (2024). A dataset of the quality of soybean harvested by mechanization for deep-learning-based monitoring and analysis. Data in Brief, 52, 109833. https://doi.org/10.1016/j.dib.2023.109833

致谢

本研究得到了国家自然科学基金、国家重点研发计划和江苏省自然科学基金的部分资助。

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于2018年10月9日在山东省梁山县梁丰粮棉种植专业合作社的实验田中,通过工业相机在机械化收割过程中捕获的40张原始大豆图像。这些图像经过多种变换,如缩放、旋转、翻转、滤波和噪声添加,被增强至800张图像。每张图像均由领域专家进行标注,使用多边形注释法标记大豆的不同部分,绿色表示正常大豆,红色表示破碎大豆,黄色表示杂质,黑色表示背景。数据集最终被划分为训练、测试和验证三个子集,每个子集包含两组文件:原始图像和分割图像。
特点
该数据集的主要特点在于其针对机械化大豆收割质量检测的专门设计,涵盖了从原始图像到分割图像的完整数据链条。图像的多样性和增强处理确保了数据集的丰富性和复杂性,从而为深度学习模型的训练提供了坚实的基础。此外,专家标注的分割图像为模型提供了高质量的监督信息,尽管这些分割图像的正确性未经人工验证。
使用方法
该数据集适用于开发和改进机械化大豆质量检测的在线检测模型,以及分析大豆机械化过程和训练图像分类与特征提取的深度学习算法。使用者应遵循数据集提供的结构,将数据加载到模型中进行训练、测试和验证。数据处理代码已上传至Project1_dataset.ipynb文件,用户可参考该文件进行数据预处理和加载。在使用过程中,需注意数据集的局限性,如特定大豆品种和收割环境的限制,以及分割图像正确性未经验证的问题。
背景与挑战
背景概述
在农业现代化进程中,机械化收割技术的应用日益广泛,尤其在豆类作物的收割中,如大豆。lisawen/soybean_dataset数据集由Man Chen, Chengqian Jin, Youliang Ni, Tengxiang Yang, Jinshan Xu等人于2018年创建,旨在通过深度学习技术提升大豆机械化收割过程中的质量监控与分析。该数据集包含了在山东省梁山县梁丰粮棉种植专业合作社的大豆试验田中,通过工业相机捕获的40张原始大豆图像,并通过多种变换技术扩展至800张图像。这些图像经过领域专家的手动标注,用于训练和验证基于机器视觉和深度学习的质量检测模型。此数据集的开发不仅推动了农业科技的发展,也为相关研究提供了宝贵的资源。
当前挑战
尽管lisawen/soybean_dataset数据集在农业质量检测领域具有重要意义,但其构建和应用过程中仍面临若干挑战。首先,数据集的标注依赖于专家手动操作,这可能导致标注的一致性和准确性问题。其次,数据集仅包含特定品种和环境下的图像,限制了其泛化能力,可能影响模型在不同条件下的表现。此外,数据集的分割图像仅作为模型输出,并未经过人工验证,其正确性存疑。未来研究需解决这些问题,以提升数据集的质量和应用范围。
常用场景
经典使用场景
在农业科技领域,lisawen/soybean_dataset 数据集的经典应用场景主要集中在机械化大豆收获质量的监测与分析。该数据集通过提供大量经过增强处理的大豆图像,支持机器视觉和深度学习模型的发展,从而实现对大豆质量的在线检测。具体而言,研究人员可以利用这些图像训练图像分类和特征提取算法,以识别大豆的正常状态、破碎状态及杂质情况,进而优化机械化收获过程。
衍生相关工作
基于 lisawen/soybean_dataset 数据集,已衍生出多项经典工作。例如,研究人员开发了多种基于深度学习的图像分类和分割模型,用于大豆质量的自动检测。此外,该数据集还促进了农业领域中机器视觉和深度学习技术的融合,推动了相关算法和模型的创新。未来,随着数据集的进一步扩展和多样化,预计将有更多相关研究成果涌现。
数据集最近研究
最新研究方向
在农业智能化的大背景下,lisawen/soybean_dataset数据集的最新研究方向主要集中在利用深度学习技术提升机械化大豆收割质量检测的精确度和效率。研究者们通过引入先进的图像分割算法,如U-Net和Mask R-CNN,对数据集中的大豆图像进行精细化处理,以实现对大豆质量的自动评估。此外,该数据集还被用于开发和优化在线检测模型,以实时监控大豆收割过程中的质量变化,从而提高农业生产的整体效率和质量控制水平。这些研究不仅推动了农业机械化的发展,也为全球粮食安全和农业可持续发展提供了技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

PlantVillage

在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。

OpenDataLab 收录