five

MinDat-Mineral-Image-Dataset|矿物识别数据集|图像数据集数据集

收藏
github2023-09-22 更新2024-05-31 收录
矿物识别
图像数据集
下载链接:
https://github.com/loliverhennigh/MinDat-Mineral-Image-Dataset
下载链接
链接失效反馈
资源简介:
一个包含超过500,000张矿物图像的数据集,每张图像都有标签,数据来源于mindat.org。数据集包含两个CSV文件,分别存储图像URL和清理后的标签信息。

A dataset comprising over 500,000 mineral images, each labeled, sourced from mindat.org. The dataset includes two CSV files, storing image URLs and cleaned label information respectively.
创建时间:
2017-06-25
原始信息汇总

MinDat-Mineral-Image-Dataset 概述

数据集基本信息

  • 数据集名称: MinDat-Mineral-Image-Dataset
  • 数据量: 超过500,000张矿物图像
  • 数据格式: 包含两个CSV文件
    • img_url_list.csv: 包含图像URL及其原始标签
    • img_url_list_converted.csv: 包含清理后的标签及无标签图像已移除的图像URL
  • 数据来源: 从 [mindat.org] 抓取
  • 数据处理时间:
    • CSV文件生成约需10小时
    • 图像下载约需24小时(假设网络连接速度大于10mbps)

数据集生成流程

  1. 运行 make_url_list.py 抓取所有图像URL,并保存至 img_urls 目录。
  2. 运行 concat_url_files 脚本合并URL文件至 img_url_list.csv
  3. 运行 convert_img_url_list.py 清理标签,生成 img_url_list_converted.csv
  4. 运行 download_images.py 下载所有图像至指定目录。

数据集特点

  • 部分图像分辨率极高,总数据量约400G。
  • 标签清理过程中,如“Capped Quartz, Chalcedony Quartz”等变体标签被简化为“Quartz”。

示例图像

  • 示例图像1
  • 示例图像2
AI搜集汇总
数据集介绍
main_image_url
构建方式
MinDat-Mineral-Image-Dataset 数据集的构建过程始于从 mindat.org 网站上抓取矿物图像及其对应的标签。首先,通过运行 `make_url_list.py` 脚本,系统性地抓取所有图像的URL,并将这些URL存储在多个文件中。随后,`concat_url_files` 脚本将这些文件合并为一个统一的CSV文件 `img_url_list.csv`。接下来,`convert_img_url_list.py` 脚本对标签进行清理,去除冗余的变体信息,例如将“Capped Quartz”简化为“Quartz”。最后,`download_images.py` 脚本根据清理后的URL列表下载所有图像,存储在指定的目录中。整个过程涉及多线程处理,生成URL列表约需10小时,下载图像则需24小时。
特点
MinDat-Mineral-Image-Dataset 数据集包含超过50万张矿物图像,每张图像均附有详细的标签信息。该数据集的一个显著特点是其标签经过精心清理,去除了不必要的变体信息,使得标签更加简洁和一致。此外,数据集中的图像均为高分辨率,保留了矿物的细节特征,这对于矿物学研究和图像识别任务尤为重要。数据集的规模庞大,总容量约为400G,适合用于大规模的图像分类和识别任务。
使用方法
使用 MinDat-Mineral-Image-Dataset 数据集时,用户首先需要运行 `make_url_list.py` 脚本生成图像URL列表,并通过 `concat_url_files` 脚本合并这些列表。随后,运行 `convert_img_url_list.py` 脚本清理标签,并最终使用 `download_images.py` 脚本下载图像。用户可以根据需要修改 `convert_img_url_list.py` 脚本,以适应不同的数据清理需求。下载的图像可以用于各种矿物图像识别和分类任务,如深度学习模型的训练和测试。
背景与挑战
背景概述
在矿物学研究领域,图像数据的丰富性和准确性对于矿物分类和识别具有重要意义。MinDat-Mineral-Image-Dataset由+500,000张矿物图像组成,这些图像来源于mindat.org,并附有详细的标签信息。该数据集由主要研究人员或机构通过多线程脚本从mindat.org网站上抓取图像,并经过清洗和整理,生成了两个CSV文件,分别包含原始标签和清洗后的标签。该数据集的创建不仅为矿物学研究提供了大规模的图像数据支持,还为图像分类和识别算法的研究提供了宝贵的资源。
当前挑战
MinDat-Mineral-Image-Dataset在构建过程中面临多项挑战。首先,从mindat.org抓取图像并生成URL列表的过程耗时约10小时,下载所有图像则需要24小时以上,这对计算资源和网络带宽提出了较高要求。其次,标签清洗过程中需要处理大量变体文本,如“Capped Quartz”和“Chalcedony Quartz”等,这些变体的处理增加了数据清洗的复杂性。此外,数据集的总容量达到400G,部分图像的高分辨率特性进一步增加了存储和处理的难度。这些挑战不仅影响了数据集的构建效率,也对后续的数据处理和分析提出了更高的技术要求。
常用场景
经典使用场景
MinDat-Mineral-Image-Dataset 是一个包含超过50万张矿物图像及其标签的数据集,主要用于矿物分类和识别任务。该数据集通过从mindat.org网站抓取图像和标签生成,适用于机器学习和计算机视觉领域的研究。经典使用场景包括矿物图像的自动分类、特征提取以及基于图像的矿物识别系统开发。
解决学术问题
该数据集解决了矿物学领域中矿物分类和识别的自动化问题。传统上,矿物识别依赖于专家知识和手动分析,效率低下且易受主观因素影响。MinDat-Mineral-Image-Dataset通过提供大规模、高质量的矿物图像数据,支持开发高效的自动化矿物识别算法,推动了矿物学研究的数字化和智能化进程。
衍生相关工作
基于MinDat-Mineral-Image-Dataset,研究者们开发了多种矿物分类和识别算法,推动了计算机视觉和机器学习在矿物学中的应用。相关工作包括但不限于深度学习模型在矿物图像分类中的应用、图像特征提取技术的改进以及多标签矿物识别系统的开发。这些研究不仅提升了矿物识别的准确性和效率,还为其他领域的图像分类问题提供了参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作