OldVisOnline

Name: OldVisOnline
Creator: 北京大学智能科学与技术学院机器感知教育部重点实验室
Published: 2023-08-30 22:19:31
License: 暂无描述

arXiv2023-08-30 更新2024-06-21 收录

下载链接：

https://github.com/oldvis

下载链接

链接失效反馈

官方服务：

资源简介：

OldVisOnline是由北京大学智能科学与技术学院机器感知教育部重点实验室创建的第一个大规模历史可视化数据集，包含13000个历史可视化图像及其相应的元数据。该数据集从七个数字图书馆收集数据，通过开发的工作流程进行数据抓取和处理，以及半自动标注方法来区分可视化和其他文物。数据集的应用领域包括文本批评、历史数据提取、设计空间分析等，旨在解决历史可视化研究中的检索和理解问题。

OldVisOnline is the first large-scale historical visualization dataset developed by the Key Laboratory of Machine Perception (Ministry of Education), School of Artificial Intelligence and Technology, Peking University. It contains 13,000 historical visualization images and their corresponding metadata. The dataset collects data from seven digital libraries, and uses a self-developed workflow for data crawling and processing, as well as a semi-automatic annotation method to distinguish visualizations from other cultural relics. Its application fields include textual criticism, historical data extraction, design space analysis and other areas, aiming to solve the retrieval and understanding problems in historical visualization research.

提供机构：

北京大学智能科学与技术学院机器感知教育部重点实验室

创建时间：

2023-08-30

搜集汇总

数据集介绍

构建方式

历史可视化图像长期散落于各大数字图书馆，缺乏专门的规模化收藏。为填补这一空白，OldVisOnline数据集应运而生。其构建遵循一套精心设计的工作流程：首先，从David Rumsey Map Collection、Internet Archive、Gallica等七个数字图书馆中，通过关键词搜索（如‘chart’、‘diagram’及知名可视化作者姓名）和API调用，获取海量图像及其异构元数据。随后，将这些元数据统一规范为包含17个维度的标准模式。针对图像中混杂的大量非可视化内容，研究团队开发了一种半自动标注方法：先对部分数据源进行人工标注，以此训练三个二值分类器（分别用于识别纯文本页、地图与可视化、以及可视化本身），再对剩余图像进行逐级预测与过滤。最终，所有模型预测结果均经过人工质量审核，确保数据集的纯净度与可靠性。

使用方法

OldVisOnline数据集的使用方法灵活多样，主要通过配套构建的在线系统实现。研究者可通过OldVisOnline的图像画廊界面，利用元数据字段（如出版日期、作者、语言、标签等）进行交叉过滤与自由文本搜索，快速定位感兴趣的历史可视化图像。系统内置的图像分类界面支持对图像进行‘可视化/非可视化’、‘地图/非地图’、‘文本/非文本’的三类二元标注，便于用户自定义筛选。对于需要深入分析的设计空间研究，系统还提供了细粒度标注界面，允许用户为多视图可视化中的每个图表标注边界多边形及其视觉编码规范（如元素类型、数据通道等）。所有元数据支持以BibTeX格式导出，便于与文献管理软件衔接，同时数据集源代码与文档均在GitHub上开源，支持研究者复现与扩展。

背景与挑战

背景概述

在数字人文与可视化研究领域，历史可视化作品作为人类知识与文化传承的珍贵载体，长期以来却因缺乏系统性的数字化收藏而散落于各大图书馆与档案馆之中。为填补这一空白，张宇、蒋瑞珂等研究者在2023年创建了OldVisOnline数据集，该数据集由北京大学、牛津大学等多所机构合作完成，旨在构建首个大规模、专门化的历史可视化图像资源库。研究团队从David Rumsey地图集、Gallica等七个数字图书馆中精心筛选出13,511幅1950年之前出版的可视化图像，并配以包含17个维度的结构化元数据，从而为历史学家与可视化研究者提供了一个前所未有的宏观视角，以探索可视化技术的历史演进与文化脉络。该数据集不仅极大扩展了学界对历史可视化的认知边界，也为后续的文本批评、数据重建与设计空间分析奠定了坚实基础。

当前挑战

OldVisOnline数据集在构建与研究中面临多重挑战。首先，在领域问题层面，历史可视化研究长期受限于样本稀缺与分散的困境，现有数字图书馆缺乏针对可视化内容的专用检索机制，导致大量珍贵图像被淹没在地图或文本页面中，难以支撑宏观层面的系统性分析。其次，在构建过程中，各数字图书馆采用异构的元数据模式与API接口，研究团队需为每个数据源开发独立的采集脚本，并将原始元数据统一映射到标准化Schema，这一过程耗时且容易引入不一致性。此外，可视化图像在数字化馆藏中分布稀疏，需设计半自动标注流程以区分可视化与非可视化内容，而训练分类器时面临地图与可视化边界模糊、文本页面干扰等难题，最终仍需人工质量审核来确保标注准确性，极大增加了数据集维护的人力成本与时间开销。

常用场景

经典使用场景

在数字人文学科与可视化历史研究的交汇处，OldVisOnline数据集为研究者提供了一个前所未有的资源宝库，涵盖13,000余幅1950年前创作的历史可视化图像及其标准化元数据。该数据集最经典的使用场景在于支持文本批评研究，通过汇集同一历史可视化作品的不同版本，使学者能够系统性地比较版本间的细微差异。例如，研究者可借此追溯约翰·斯诺霍乱地图在1855年原始版与1936年重印版之间的印刷变异，揭示因油墨扩散等技术因素导致的数据解读偏差，从而深化对历史文献传播过程中信息失真的理解。

解决学术问题

该数据集直面历史可视化研究领域长期存在的两大核心困境：散落于不同数字图书馆的可视化资源难以系统检索，以及现有研究过度依赖少数经典案例而缺乏宏观视野。通过构建统一的元数据架构与半自动标注流程，OldVisOnline成功将分散的视觉遗产汇聚为可计算、可分析的学术语料库。这一突破不仅为可视化设计空间的历时性分析提供了数据基础，使学者能够量化追踪图表类型、视觉编码模式的历史演变轨迹，更通过支持历史数据提取任务，为从古老图表中解码已遗失的原始数据集开辟了新路径，有力推动了科学史与可视化领域的交叉创新。

实际应用

在实际应用层面，OldVisOnline数据集展现出跨领域的赋能价值。对于博物馆与数字图书馆的策展工作，该数据集提供的元数据标准化方案与可视化识别模型可直接迁移至其他文化遗产数字化项目，提升图像分类与检索效率。在教育领域，教师可利用该资源构建沉浸式的可视化历史课堂，通过对比约瑟夫·普里斯特利的时间轴与当代交互式变体，直观展示信息设计理念的演进脉络。此外，数据新闻工作者与信息设计师可从中汲取灵感，将伊丽莎白·皮博迪的网格图表等历史杰作重新诠释为现代数据叙事作品，实现传统智慧与当代技术的创造性融合。

数据集最近研究