sawhill-dataset

Hugging Face2026-04-30 更新2026-05-01 收录

下载链接：

https://huggingface.co/datasets/COIN-Research-Group/sawhill-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Sawhill钱币收藏数据集包含来自MacKenzie艺术画廊Sawhill钱币收藏的钱币视频记录和提取的图像。该数据集旨在用于自动钱币识别、文化遗产数字化和钱币学中的计算机视觉应用研究。数据集内容包括手持拍摄的钱币视频、提取的帧序列和参考嵌入向量。数据集结构包括原始视频文件、预计算的512维ArcFace嵌入向量、参考标签和路径，以及自动生成的标签（CSV和JSON格式）。数据收集采用手持摄像机在自然光线下拍摄约30秒的视频，展示钱币的正反面，帧率为29.97 fps，分辨率为1920x1080。处理流程包括帧提取、钱币分割、嵌入和匹配。数据集支持图像分类、特征提取和对象检测等任务。数据集包含787个参考嵌入向量（311个命名钱币×2面+165个松散图像）。局限性包括参考图像与视频之间的领域差距、置信度阈值可能过高、分割质量受背景和光照影响，以及参考数据库可能不完整。数据集采用CC-BY-4.0许可。

The Sawhill Coin Collection dataset contains video recordings and extracted images of coins from the Sawhill Coin Collection at the MacKenzie Art Gallery. The dataset is intended for research in automatic coin recognition, digital cultural heritage, and computer vision applications in numismatics. The dataset includes handheld videos of coins, extracted frame sequences, and reference embedding vectors. The dataset structure comprises raw video files, precomputed 512-dimensional ArcFace embeddings, reference labels and paths, and automatically generated labels (in CSV and JSON formats). Data collection involved handheld camera recordings under natural light, capturing approximately 30-second videos showing both sides of the coins, with a frame rate of 29.97 fps and a resolution of 1920x1080. The processing pipeline includes frame extraction, coin segmentation, embedding, and matching. The dataset supports tasks such as image classification, feature extraction, and object detection. It contains 787 reference embedding vectors (311 named coins × 2 sides + 165 loose images). Limitations include domain gaps between reference images and videos, potentially high confidence thresholds, segmentation quality affected by background and lighting, and possible incompleteness of the reference database. The dataset is licensed under CC-BY-4.0.

创建时间：

2026-04-27

原始信息汇总

Sawhill Numismatic Collection Dataset 数据集总结

数据集概述

来源: MacKenzie Art Gallery 的 Sawhill Numismatic Collection
内容: 硬币的手持视频录制、提取的帧序列以及参考嵌入向量
目的: 利用深度学习实现自动化硬币识别
许可证: CC-BY-4.0

支持的任务

图像分类: 从视频帧或图像中识别硬币
特征提取: 预计算的512维ArcFace嵌入向量，用于硬币匹配
目标检测: 从视频帧中进行硬币分割和裁剪

数据集结构

sawhill-numismatic-collection/ ├── videos/ # 原始视频录制 (.MP4) │ └── MVI_XXXX.MP4 # 单枚硬币的手持视频 ├── data/ │ ├── reference_embeddings.npy # (N, 512) float32 - ArcFace嵌入向量 │ ├── reference_labels.npy # (N,) str - 登记号或文件名 │ ├── reference_paths.npy # (N,) str - 源图像路径 │ └── draft_labels/ # 自动生成的标签 (CSV + JSON) │ ├── MVI_XXXX.csv # 逐帧预测结果 │ └── MVI_XXXX_summary.json # 视频级别摘要 └── output/ # 从视频中提取的帧 └── MVI_XXXX/ ├── frame_0000.jpg # 单个提取的帧 └── ...

数据字段

参考嵌入向量

reference_embeddings.npy: 预计算的512维ArcFace嵌入向量
- 形状: (N, 512)，其中 N = 参考图像数量
- 类型: float32
- 归一化: L2归一化
reference_labels.npy: 每个嵌入向量的标签
- 格式: 登记号（例如 "2024.1.11"）或文件名（例如 "MAC 03 Coins-15"）
- 类型: Unicode字符串
reference_paths.npy: 参考图像的源路径
- 格式: 原始图像的绝对路径
- 类型: Unicode字符串

自动生成的标签

每个视频有两个输出文件：

CSV格式 (MVI_XXXX.csv): csv frame_idx,timestamp_sec,predicted_label,confidence,candidate_2,score_2,candidate_3,score_3,flagged 0,0.00,2024.1.11,0.2571,MAC 03 Coins-20,0.2355,2024.2.137,0.2252,True

JSON摘要 (MVI_XXXX_summary.json): json { "video": "MVI_0158.MP4", "total_frames_sampled": 31, "auto_accepted": 0, "flagged_for_review": 31, "predicted_label": "2024.1.11", "prediction_confidence": "low" }

数据收集

视频录制

设备: 手持相机 (iPhone/数码相机)
环境: 自然光，纯色背景
方法: 约30秒视频，旋转硬币展示正面和背面
帧率: 29.97 fps
分辨率: 1920x1080

参考图像

参考图像来源于：

命名硬币: MacKenzie Art Gallery目录，带有登记号（YYYY.M.N格式）
松散图像: 按文件名标记的额外目录图像

处理流程

帧提取: 以1 fps间隔采样帧（每30帧取一帧）
硬币分割:
- LAB颜色空间中的边框颜色统计
- Otsu阈值处理
- 形态学操作
- 连通分量分析
- 基于质心的裁剪至224×224
嵌入向量: 在硬币图像上训练的ArcFace模型（512维）
匹配: 通过点积计算L2归一化余弦相似度

使用方式

数据集下载

bash

安装依赖

pip install huggingface_hub

从计算机下载

git clone https://github.com/COIN-Research-Group/extract-sawhill-dataset cd extract-sawhill-dataset python hf_pull.py --repo-id COIN-Research-Group/sawhill-dataset

或仅下载特定组件

python hf_pull.py --repo-id COIN-Research-Group/sawhill-dataset --data-only python hf_pull.py --repo-id COIN-Research-Group/sawhill-dataset --videos-only

上传新数据

bash

添加新视频或处理新数据后

python hf_push.py --repo-id COIN-Research-Group/sawhill-dataset

仅上传视频

python hf_push.py --repo-id COIN-Research-Group/sawhill-dataset --videos-only

仅上传处理后的数据

python hf_push.py --repo-id COIN-Research-Group/sawhill-dataset --data-only

加载参考嵌入向量

python import numpy as np from huggingface_hub import hf_hub_download

下载文件

embeddings_path = hf_hub_download( repo_id="COIN-Research-Group/sawhill-dataset", filename="data/reference_embeddings.npy", repo_type="dataset" ) labels_path = hf_hub_download( repo_id="COIN-Research-Group/sawhill-dataset", filename="data/reference_labels.npy", repo_type="dataset" )

加载数据

embeddings = np.load(embeddings_path) # 形状: (N, 512) labels = np.load(labels_path) # 形状: (N,)

print(f"Loaded {len(embeddings)} reference embeddings") print(f"Unique coins: {len(np.unique(labels))}")

模型信息

ArcFace嵌入向量模型

架构: ResNet50骨干网络 + ArcFace头部
嵌入维度: 512
训练: 在硬币图像对上进行训练
归一化: L2归一化嵌入向量
权重: arcface_main.pth（不包含在数据集中，请参见主仓库）

性能

测试准确率: 在MVI_0158.MP4上正确识别（目标: 2024.1.11）
置信度分数: 0.18-0.27范围（反映了手持视频与工作室摄影之间的领域差距）
数据库大小: 787个参考嵌入向量（311枚命名硬币 × 2个面 + 165张松散图像）

局限性

领域差距: 参考图像为高质量工作室照片；视频为手持拍摄，光照条件多变
置信度阈值: 当前阈值（0.82）可能对跨域匹配过高
分割质量: 分割性能随背景复杂度和光照条件变化
覆盖范围: 参考数据库可能不包含全部馆藏中的所有硬币

搜集汇总

数据集介绍

构建方式

该数据集源自MacKenzie艺术馆的Sawhill钱币收藏，旨在支持自动钱币识别与文化遗产数字化研究。构建过程首先通过手持相机在自然光与纯色背景下对每枚钱币进行约30秒的旋转视频录制，随后以每秒一帧的采样率提取图像帧，经LAB色彩空间边界统计、Otsu阈值分割、形态学操作及连通域分析实现钱币分割，最终将分割区域裁剪至224×224像素。在此基础上，利用基于ResNet50骨干网络与ArcFace头的预训练模型提取512维L2归一化嵌入向量，并构建包含311枚命名钱币双面图像与165张松散图像的参考嵌入库，共计787个参考样本。

使用方法

用户可通过Hugging Face Hub仓库直接下载数据集，支持视频、处理数据或完整内容的按需拉取。使用前需安装huggingface_hub库，并通过hf_hub_download函数加载参考嵌入与标签文件，其嵌入形状为(N,512)的float32数组，标签为对应入藏编号的字符串数组。对于新视频的处理，可调用autolabel_videos模块中的autolabel_video函数，传入视频路径与参考嵌入，系统将自动执行帧提取、分割、嵌入匹配与结果标注，生成CSV格式的逐帧预测与JSON格式的视频级汇总。该流程完整封装了从原始视频到结构化标注的端到端管线。

背景与挑战

背景概述

sawhill-dataset是由MacKenzie Art Gallery及其研究团队于2026年创建的一个专注于钱币学领域文化遗产数字化的数据集，其核心研究问题在于利用深度学习技术实现自动化硬币识别。该数据集源自馆藏丰富的Sawhill Numismatic Collection，包含手持视频录制的硬币动态影像、提取帧序列及预计算的ArcFace特征嵌入，旨在弥合博物馆静态摄影与真实场景视频之间的域差异。作为计算机视觉与文化遗产交叉领域的创新资源，它推动了钱币鉴定从人工依赖向智能化的转型，为文化遗产数字化保护提供了可复用的基准数据与处理流水线。

当前挑战

该数据集所解决的领域问题在于钱币识别中跨域匹配的困境：参考图像为高质量摄影，而实际应用场景（如手持视频）存在光照多变、背景杂乱及运动模糊等干扰。构建过程中面临三大挑战：一是视频帧的硬币分割质量受背景复杂度与照明条件制约，需通过LAB色彩空间与Otsu阈值等自适应算法优化；二是置信度阈值设定需平衡精度与召回率，当前0.82的阈值在跨域场景下可能导致低分样本被误拒；三是参考数据库覆盖不全的挑战，仅包含311枚命名硬币的正反面及165张松散图像，需持续扩展以应对完整馆藏的多样性。

常用场景

经典使用场景

在文化遗产数字化与计算机视觉交叉研究领域，Sawhill Numismatic Collection数据集为古钱币自动识别任务提供了宝贵的基准资源。该数据集囊括了来自MacKenzie艺术馆的珍贵钱币藏品，包含手持设备录制的视频片段、按帧提取的图像序列以及预计算的512维ArcFace特征嵌入。研究者可基于这些视频帧或图像开展图像分类任务，利用预训练的特征嵌入进行高效的钱币匹配，亦可通过目标检测完成钱币分割与裁剪。这一多模态、多任务的数据结构，为探索深度学习在钱币学领域的应用奠定了坚实基础。

解决学术问题

该数据集有效解决了文化遗产领域中钱币自动化鉴定的关键学术难题。传统钱币识别依赖专家经验，效率低下且主观性强，而该数据集提供的标准化视频采集流程、帧提取策略与ArcFace嵌入模型，使得高精度、大规模的钱币识别成为可能。通过引入对比学习框架，数据集缓解了博物馆摄影与手持视频之间的域偏移问题，为跨域图像匹配提供了切实可行的解决方案。这一贡献不仅推动了计算机视觉在文物识别中的理论突破，也为数字博物馆的知识图谱构建与自动化编目提供了重要数据支撑。

实际应用

在实际应用层面，Sawhill数据集可被部署于博物馆的智能导览系统，助力访客通过拍照快速获取钱币的历史背景与艺术价值。古玩交易平台亦可集成该数据集训练的模型，实现对藏品真伪与时代的初步验证，降低鉴定门槛。此外，在文化遗产保护领域，该数据集能够辅助文物保管人员快速筛查大量库存，识别缺失或错位的藏品，显著提升馆藏的数字化管理水平。其提供的自动标注与嵌入匹配流水线，使得非专业机构也能轻松应用前沿的人工智能技术，推动文化遗产的普惠化传播。

数据集最近研究