five

MinDat-Mineral-Image-Dataset|矿物识别数据集|图像数据集数据集

收藏
github2023-09-22 更新2024-05-31 收录
矿物识别
图像数据集
下载链接:
https://github.com/loliverhennigh/MinDat-Mineral-Image-Dataset
下载链接
链接失效反馈
资源简介:
一个包含超过500,000张矿物图像的数据集,每张图像都有标签,数据来源于mindat.org。数据集包含两个CSV文件,分别存储图像URL和清理后的标签信息。

A dataset comprising over 500,000 mineral images, each labeled, sourced from mindat.org. The dataset includes two CSV files, storing image URLs and cleaned label information respectively.
创建时间:
2017-06-25
原始信息汇总

MinDat-Mineral-Image-Dataset 概述

数据集基本信息

  • 数据集名称: MinDat-Mineral-Image-Dataset
  • 数据量: 超过500,000张矿物图像
  • 数据格式: 包含两个CSV文件
    • img_url_list.csv: 包含图像URL及其原始标签
    • img_url_list_converted.csv: 包含清理后的标签及无标签图像已移除的图像URL
  • 数据来源: 从 [mindat.org] 抓取
  • 数据处理时间:
    • CSV文件生成约需10小时
    • 图像下载约需24小时(假设网络连接速度大于10mbps)

数据集生成流程

  1. 运行 make_url_list.py 抓取所有图像URL,并保存至 img_urls 目录。
  2. 运行 concat_url_files 脚本合并URL文件至 img_url_list.csv
  3. 运行 convert_img_url_list.py 清理标签,生成 img_url_list_converted.csv
  4. 运行 download_images.py 下载所有图像至指定目录。

数据集特点

  • 部分图像分辨率极高,总数据量约400G。
  • 标签清理过程中,如“Capped Quartz, Chalcedony Quartz”等变体标签被简化为“Quartz”。

示例图像

  • 示例图像1
  • 示例图像2
AI搜集汇总
数据集介绍
main_image_url
构建方式
MinDat-Mineral-Image-Dataset 数据集的构建过程始于从 mindat.org 网站上抓取矿物图像及其对应的标签。首先,通过运行 `make_url_list.py` 脚本,系统性地抓取所有图像的URL,并将这些URL存储在多个文件中。随后,`concat_url_files` 脚本将这些文件合并为一个统一的CSV文件 `img_url_list.csv`。接下来,`convert_img_url_list.py` 脚本对标签进行清理,去除冗余的变体信息,例如将“Capped Quartz”简化为“Quartz”。最后,`download_images.py` 脚本根据清理后的URL列表下载所有图像,存储在指定的目录中。整个过程涉及多线程处理,生成URL列表约需10小时,下载图像则需24小时。
特点
MinDat-Mineral-Image-Dataset 数据集包含超过50万张矿物图像,每张图像均附有详细的标签信息。该数据集的一个显著特点是其标签经过精心清理,去除了不必要的变体信息,使得标签更加简洁和一致。此外,数据集中的图像均为高分辨率,保留了矿物的细节特征,这对于矿物学研究和图像识别任务尤为重要。数据集的规模庞大,总容量约为400G,适合用于大规模的图像分类和识别任务。
使用方法
使用 MinDat-Mineral-Image-Dataset 数据集时,用户首先需要运行 `make_url_list.py` 脚本生成图像URL列表,并通过 `concat_url_files` 脚本合并这些列表。随后,运行 `convert_img_url_list.py` 脚本清理标签,并最终使用 `download_images.py` 脚本下载图像。用户可以根据需要修改 `convert_img_url_list.py` 脚本,以适应不同的数据清理需求。下载的图像可以用于各种矿物图像识别和分类任务,如深度学习模型的训练和测试。
背景与挑战
背景概述
在矿物学研究领域,图像数据的丰富性和准确性对于矿物分类和识别具有重要意义。MinDat-Mineral-Image-Dataset由+500,000张矿物图像组成,这些图像来源于mindat.org,并附有详细的标签信息。该数据集由主要研究人员或机构通过多线程脚本从mindat.org网站上抓取图像,并经过清洗和整理,生成了两个CSV文件,分别包含原始标签和清洗后的标签。该数据集的创建不仅为矿物学研究提供了大规模的图像数据支持,还为图像分类和识别算法的研究提供了宝贵的资源。
当前挑战
MinDat-Mineral-Image-Dataset在构建过程中面临多项挑战。首先,从mindat.org抓取图像并生成URL列表的过程耗时约10小时,下载所有图像则需要24小时以上,这对计算资源和网络带宽提出了较高要求。其次,标签清洗过程中需要处理大量变体文本,如“Capped Quartz”和“Chalcedony Quartz”等,这些变体的处理增加了数据清洗的复杂性。此外,数据集的总容量达到400G,部分图像的高分辨率特性进一步增加了存储和处理的难度。这些挑战不仅影响了数据集的构建效率,也对后续的数据处理和分析提出了更高的技术要求。
常用场景
经典使用场景
MinDat-Mineral-Image-Dataset 是一个包含超过50万张矿物图像及其标签的数据集,主要用于矿物分类和识别任务。该数据集通过从mindat.org网站抓取图像和标签生成,适用于机器学习和计算机视觉领域的研究。经典使用场景包括矿物图像的自动分类、特征提取以及基于图像的矿物识别系统开发。
解决学术问题
该数据集解决了矿物学领域中矿物分类和识别的自动化问题。传统上,矿物识别依赖于专家知识和手动分析,效率低下且易受主观因素影响。MinDat-Mineral-Image-Dataset通过提供大规模、高质量的矿物图像数据,支持开发高效的自动化矿物识别算法,推动了矿物学研究的数字化和智能化进程。
衍生相关工作
基于MinDat-Mineral-Image-Dataset,研究者们开发了多种矿物分类和识别算法,推动了计算机视觉和机器学习在矿物学中的应用。相关工作包括但不限于深度学习模型在矿物图像分类中的应用、图像特征提取技术的改进以及多标签矿物识别系统的开发。这些研究不仅提升了矿物识别的准确性和效率,还为其他领域的图像分类问题提供了参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

ChemBL

ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。

www.ebi.ac.uk 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国行政区划shp数据

   中国行政区划数据是重要的基础地理信息数据,目前不同来源的全国行政区划数据非常多,但能够开放获取的高质量行政区域数据少之又少。基于此,锐多宝的地理空间制作一套2013-2023年可开放获取的高质量行政区划数据。该套数据以2022年国家基础地理信息数据中的县区划数据作为矢量基础,辅以高德行政区划数据、天地图行政区划数据,参考历年来民政部公布的行政区划为属性基础,具有时间跨度长、属性丰富、国界准确、更新持续等特性。   中国行政区划数据统计截止时间是2023年2月12日,包含省、市、县、国界、九段线等矢量shp数据。该数据基于2020年行政区划底图,按时间顺序依次制作了2013-2023年初的行政区划数据。截止2023年1月1日,我国共有34个省级单位,分别是4个直辖市、23个省、5个自治区和2个特别行政区。截止2023年1月1日,我国共有333个地级单位,分别是293个地级市、7个地区、30个自治州和3个盟,其中38个矢量要素未纳入统计(比如直辖市北京等、特别行政区澳门等、省直辖县定安县等)。截止2023年1月1日,我国共有2843个县级单位,分别是1301个县、394个县级市、977个市辖区、117个自治县、49个旗、3个自治旗、1个特区和1个林区,其中9个矢量要素未纳入县级类别统计范畴(比如特别行政区香港、无县级单位的地级市中山市东莞市等)。

CnOpenData 收录

Movies Dataset

这个数据集包含电影的详细信息,包括电影名称、评分、类型、年份、发布日期、IMDb评分、投票数、导演、编剧、主演、制作国家、预算、总收入、制作公司和电影时长。

github 收录