LUWA Dataset|石器磨损分析数据集|显微镜图像数据集

arXiv2024-03-28 更新2024-06-21 收录

石器磨损分析

显微镜图像

下载链接：

https://ai4ce.github.io/LUWA/

下载链接

链接失效反馈

资源简介：

LUWA数据集是由纽约大学创建的，旨在通过显微镜图像学习石器使用磨损分析。该数据集包含23,130张显微镜图像，涵盖不同的放大倍数和传感模式，用于探索图像分类超越常见物体。数据集的创建过程考虑了磨损形成、显微镜成像和专家知识，旨在解决石器工具功能识别的科学问题，为考古学和材料科学领域提供重要参考。

提供机构：

纽约大学

创建时间：

2024-03-20

AI搜集汇总

数据集介绍

构建方式

LUWA数据集的构建过程是一个复杂而精细的工程，它旨在解决考古学中石器使用磨损分析（LUWA）的挑战。为了确保数据集的多样性和代表性，研究团队采用了机器和人工磨损实验，使用20倍和50倍两种放大倍数的显微镜成像技术，收集了23,130张微观图像。这些图像不仅包括了灰度微观图像，还包含了相应的3D表面轮廓，为研究人员提供了丰富的纹理信息和几何线索。此外，为了增加数据集的深度，专家们还参与了数据标注，识别了不同磨损程度的痕迹，并提供了决策过程中的注意力图，以及用于GPT-4V分类的提示。

使用方法

使用LUWA数据集的方法包括全监督图像分类和少样本图像分类。在全监督图像分类中，研究人员可以使用经典和最先进的图像分类算法来评估模型在该数据集上的泛化能力。在少样本图像分类中，可以使用预训练模型和原型网络进行评估。此外，LUWA数据集还提供了专家的决策过程和注意力图，以及用于GPT-4V分类的提示，这为研究人员提供了更深入的理解和探索机会。

背景与挑战

背景概述

LUWA数据集：学习石器使用磨损分析，是一项针对微观图像的考古学研究。该数据集于2024年由纽约大学和斯坦福大学的研究人员合作创建，旨在解决石器使用磨损分析这一科学问题。该数据集的核心研究问题是通过对石器表面的微观磨损痕迹进行图像分类，从而区分加工过的材料，这对于理解考古文物、材料相互作用、工具功能和牙齿记录至关重要。LUWA数据集的创建填补了该领域数据集的空白，为相关领域的研究提供了重要的资源。

当前挑战

LUWA数据集面临的挑战包括：1)所解决的领域问题，即如何通过微观图像对石器使用磨损进行分析，以区分加工过的材料。2)构建过程中所遇到的挑战，例如微观成像中的复杂磨损形成和不可预测的磨损模式，以及微观成像中模糊的传感模态和放大倍数。这些挑战使得即使对于人类专家来说，识别加工过的材料也变得困难。

常用场景

经典使用场景

LUWA数据集主要用于解决石器使用磨损分析的问题。该数据集包含23,130张不同放大倍数和传感模式的微观图像，旨在帮助研究者探索和开发新的图像分类算法，以识别石器表面上的磨损痕迹。通过分析这些痕迹，研究者可以推断出石器的使用材料，这对于理解古代工具的功能、材料相互作用以及工具的用途具有重要意义。

解决学术问题

LUWA数据集解决了以下常见的学术研究问题：1. 如何在微观图像中识别磨损痕迹，以区分不同的使用材料；2. 如何利用小样本学习技术，在稀缺的微观图像上进行有效分类；3. 微观图像的放大倍数和传感模式如何影响分类精度。LUWA数据集的意义在于，它提供了一个开放和大规模的数据集，可以帮助研究者评估和改进图像分类算法，并推动视觉和科学领域的研究。

实际应用

LUWA数据集的实际应用场景包括：1. 考古学：通过分析古代石器上的磨损痕迹，可以推断出石器的使用材料，从而更好地理解古代人类的行为和文化；2. 材料科学：通过研究不同材料在使用过程中的磨损特征，可以开发更耐用的材料和工具；3. 牙科：通过分析牙齿上的磨损痕迹，可以诊断和治疗牙齿问题。

数据集最近研究

相关研究论文

1
LUWA Dataset: Learning Lithic Use-Wear Analysis on Microscopic Images纽约大学 · 2024年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

Eurovision Song Contest Dataset

Eurovision Song Contest数据集是一个免费提供的数据集，包含1735首参赛歌曲的音频特征、元数据、比赛排名和投票数据，这些歌曲参与了从1956年到2023年的Eurovision Song Contest。

github 收录

RADIOML 2016.10A

一个合成数据集，使用GNU Radio生成，包含11种调制方式（8种数字和3种模拟），信号噪声比各异。该数据集首次在第六届年度GNU Radio会议上发布。

github 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集，主要由非网络来源的内部数据构成，包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容，质量优异，信息密度可观。数据集适用于预训练或继续预训练用途，未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用，但建议先使用配套的预训练数据集对模型进行继续预训练后，再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据，以避免灾难性遗忘并加强模型表现。

huggingface 收录

PlantVillage

在这个数据集中，39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。

OpenDataLab 收录