newspapers-photo-predictions

Hugging Face2025-11-24 更新2025-11-25 收录

下载链接：

https://huggingface.co/datasets/davanstrien/newspapers-photo-predictions

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含使用SAM3模型在源数据集上检测到的照片的边界框信息的数据集。源数据集为davanstrien/newspapers-with-images-after-photography-big。数据集包含训练和验证两个部分，共有5000张图片经过处理，每张图片平均检测到3张照片。数据集的特征包括文本、OCR平均值、OCR标准差、标题、日期、语言、IIIF URL、多语言标记、问题URI、ID、图像、下载状态、下载重试次数、下载URL以及对象信息（包括边界框、类别和分数）。

创建时间：

2025-11-21

原始信息汇总

数据集概述

基本信息

数据集名称: Object Detection: Photograph Detection using sam3
任务类型: 目标检测
检测对象: 照片(photograph)
数据生成方式: 自动生成

数据来源与处理

源数据集: davanstrien/newspapers-with-images-after-photography-big
检测模型: Meta SAM3 (Segment Anything Model 3)
处理脚本: uv-scripts/sam3
处理样本数: 5,000张图像
处理时间: 30.7分钟
处理日期: 2025-11-21 12:34 UTC

数据集统计

总检测数量: 15,000个检测框
包含检测的图像数: 5,000张(100%)
平均每图检测数: 3.00个
训练集样本数: 4,500
验证集样本数: 500

数据集结构

特征字段

text: 文本内容(string)
mean_ocr: OCR均值(float64)
std_ocr: OCR标准差(float64)
title: 标题(string)
date: 日期(string)
language: 语言列表(list[string])
item_iiif_url: IIIF URL(string)
multi_language: 多语言标识(bool)
issue_uri: 问题URI(string)
id: 标识符(string)
image: 图像数据(image)
download_status: 下载状态(string)
download_retries: 下载重试次数(int64)
download_url: 下载URL(string)
objects: 检测结果结构体

检测结果结构

python objects: { "bbox": [[x, y, w, h], ...], # 边界框坐标列表 "category": [0, 0, ...], # 类别索引列表(始终为0) "score": [0.95, 0.87, ...] # 置信度分数列表 }

技术配置

图像列: image
数据集分割: train
类别名称: photograph
置信度阈值: 0.4
掩码阈值: 0.5
批处理大小: 32
模型精度: bfloat16
处理速度: ~2.7 images/second

存储信息

下载大小: 4,921,908,986字节
数据集大小: 4,960,431,052字节
训练集大小: 4,464,387,946.8字节
验证集大小: 496,043,105.2字节

数据格式

边界框格式: [x, y, width, height] (像素坐标)
类别编码: 单类别检测，始终为0
置信度范围: 0.0到1.0

搜集汇总

数据集介绍

构建方式

在数字人文研究领域，该数据集通过自动化流程构建而成，其源数据来自历史报纸图像集合。采用Meta公司研发的SAM3模型进行零样本目标检测，以文本提示词'photograph'作为检测对象，对5000张图像进行批量处理。处理过程中设置了0.4的置信度阈值和0.5的掩码阈值，利用bfloat16精度在GPU环境下实现了高效推理，最终生成包含边界框坐标与置信度分数的结构化标注数据。

使用方法

研究人员可通过HuggingFace数据集库直接加载该资源，利用标准接口获取训练集与验证集。典型应用流程包括遍历检测结果实现批量分析，或通过置信度筛选构建高质量子集。数据集配套提供的可视化工具支持检测结果的可视化验证，用户可指定样本数量将检测效果保存为图像文件。对于需要重新生成标注的场景，原始处理脚本已公开可用，支持在GPU环境中复现完整的检测流程。

背景与挑战

背景概述

在数字人文与档案数字化研究领域，newspapers-photo-predictions数据集于2025年由HuggingFace社区基于Meta的SAM3模型构建而成。该数据集源自davanstrien/newspapers-with-images-after-photography-big原始档案，聚焦于新闻图像中摄影元素的自动化检测任务。其核心研究问题在于探索零样本学习模型对历史文献中视觉内容的解析能力，通过边界框定位技术，为文化遗产数字化提供结构化标注支持，推动了跨模态分析在档案学研究中的应用深度。

当前挑战

该数据集需应对历史新闻图像中摄影元素检测的多重挑战：原始文献存在版面退化、印刷噪声及低分辨率问题，导致模型需在复杂背景中区分摄影与插画等视觉元素；构建过程中，SAM3模型虽具备零样本检测优势，但对泛化至历史文献域时仍需调整置信度阈值以平衡精度与召回率，同时批量处理数千张高异质性图像时，需协调计算效率与标注一致性之间的矛盾。

常用场景

经典使用场景

在数字人文研究领域，该数据集为历史报纸图像分析提供了关键支持。通过SAM3模型对报纸图像中的照片元素进行精准定位，研究者能够系统性地识别和量化版面中的视觉内容分布。这种基于边界框的检测方法为大规模档案数字化项目建立了自动化标注流程，显著提升了历史文献中视觉材料的检索效率与分析深度。

解决学术问题

该数据集有效解决了文化遗产数字化中的视觉元素识别难题。通过零样本检测技术突破传统方法对标注数据的依赖，为跨时代报刊图像的比较研究提供标准化数据基础。其采用的边界框标注体系不仅完善了多媒体档案的元数据结构，更推动了计算机视觉与数字人文的跨学科方法论融合，为历史视觉文化的定量研究开辟了新路径。

实际应用

在实践层面，该数据集支撑着智能档案管理系统的开发应用。博物馆与图书馆可利用其检测结果构建可视化检索界面，使公众能精准定位报刊中的历史照片。新闻出版机构则借助该技术实现版面元素的智能分类，优化数字资产管理系统。这些应用显著提升了文化遗产机构的服务效能，推动了历史视觉资源的公共传播与教育利用。

数据集最近研究