ZuantuSet

Name: ZuantuSet
Creator: 北京大学
Published: 2025-02-26 20:38:52
License: 暂无描述

arXiv2025-02-26 更新2025-02-28 收录

下载链接：

https://zuantuset.github.io/gallery

下载链接

链接失效反馈

官方服务：

资源简介：

ZuantuSet是一个包含超过71,000个中国历史视觉化和108,000个插图的数据集。该数据集由北京大学的一般人工智能国家重点实验室和智能科学技术学院通过半自动化的管道收集和提取历史书籍中的视觉化内容而构建。数据集涵盖了从公元前550年到1950年的中国历史视觉化作品。该数据集不仅揭示了历史中国视觉化的独特设计模式，还分析了其背后的历史和文化成因，为数字人文领域的研究提供了丰富的资源。

ZuantuSet is a dataset comprising over 71,000 Chinese historical visualizations and 108,000 illustrations. It was constructed by the State Key Laboratory of General Artificial Intelligence and the School of Intelligence Science and Technology at Peking University via a semi-automated pipeline that collects and extracts visual content from historical books. The dataset encompasses Chinese historical visual works spanning from 550 BCE to 1950 CE. It not only unveils the unique design patterns of historical Chinese visualizations but also analyzes the underlying historical and cultural causes behind these patterns, providing a valuable resource for research in the field of digital humanities.

提供机构：

北京大学

创建时间：

2025-02-26

搜集汇总

数据集介绍

构建方式

ZuantuSet 数据集的构建方式采用了半自动化的流程，首先通过手动收集网络上的 6343 张历史中国视觉表现图像，并在此基础上，从三个数字图书馆（国会图书馆、哈佛图书馆和国会图书馆）中收集了 1979、9335 和 1476 本书，共获得了 12,821 本书。然后，通过数据清洗、图形提取和分类三个步骤对数据进行处理。数据清洗包括元数据统一、书籍去重和图像获取。图形提取使用 YOLOv8l 模型从图像中检测图形，并对跨页的图形进行拼接。分类过程包括初始标注、批量标注和基于相似度的匹配，共对 178,659 个图形进行了标注。

特点

ZuantuSet 数据集的特点是包含超过 71K 个历史中国视觉表现和 108K 个插图，涵盖了从公元前 550 年到公元 1950 年的中国历史。数据集根据视觉表现的形式和领域进行了分类，并提供了在线画廊供用户浏览和搜索。ZuantuSet 数据集填补了现有历史视觉表现数据集在非欧洲文化框架方面的空白，为研究历史视觉表现提供了宝贵的资源。

使用方法

ZuantuSet 数据集的使用方法包括：1. 搜索可视化：用户可以通过书籍名称、形式、领域等条件搜索历史中国视觉表现。2. 文本批评：数据集可以用于研究古代文献的版本和校勘。3. 研究可视化历史：数据集可以帮助研究者更全面地了解可视化历史的发展。4. 复兴历史图形设计：数据集可以启发设计师从历史中汲取灵感，进行创新设计。5. 促进文化导向设计：数据集可以用于为特定文化背景的用户设计更加直观和有效的视觉元素。6. 游戏、教育和叙事：数据集可以用于游戏开发、教育和叙事创作，通过动画和交互性增强用户体验。

背景与挑战

背景概述

ZuantuSet是一个集合了超过7.1万张历史中国视觉化作品和10.8万张插图的数据集，由北京大学国家重点人工智能实验室智能科学与技术学院、牛津大学计算机科学系、北京大学中国古代史研究中心等机构的研究人员共同创建。该数据集旨在研究历史视觉化的历史和文化背景，特别是中国古代的视觉化作品，以弥补当前研究中以欧洲为中心的视角。ZuantuSet的创建不仅为历史视觉化研究提供了新的数据资源，也为跨文化研究提供了新的视角，有助于更全面地理解视觉化的发展历程。

当前挑战

ZuantuSet面临的挑战主要在于历史视觉化作品的收集、提取和标注。由于古代书籍和其他媒介中的历史中国图形难以在线搜索或访问，因此收集工作面临困难。此外，由于可视化与插图的边界不总是清晰，分类工作也面临挑战。此外，由于历史视觉化作品的独特性和文化背景，如何有效地利用这些数据并促进跨文化理解也是一个重要的挑战。

常用场景

经典使用场景

ZuantuSet数据集包含超过71K个历史中国可视化图像和108K个插图，为研究历史可视化提供了宝贵资源。其经典使用场景包括：1. 研究历史可视化的发展过程和设计原则，以深入了解当代可视化方法的演变和发展；2. 分析不同文明在视觉沟通和设计美学方面的独特特征，以及这些特征对信息表示和传达方式的影响；3. 跨文化比较不同文化背景下的历史可视化，以超越单一或片面的观点，实现更客观、全面的理解。

解决学术问题

ZuantuSet数据集解决了历史可视化研究中存在的欧化视角问题，并将中国历史可视化引入了更广泛的研究领域。其意义和影响包括：1. 丰富了历史可视化研究的多样性，有助于更全面地了解历史可视化的发展历程；2. 为跨文化比较研究提供了新的视角和资源，有助于打破欧化视角的局限性；3. 为设计创新提供了灵感，有助于推动当代设计的发展。

衍生相关工作

ZuantuSet数据集的建立衍生了多个相关的研究工作，包括：1. 对历史中国可视化图像的分类和标签，有助于更好地理解和分析历史可视化；2. 对历史中国可视化图像的分析和解释，有助于揭示历史可视化的设计模式和形成原因；3. 对历史中国可视化图像的应用场景的探索，有助于推动历史可视化在当代设计中的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集