banned-historical-archives/banned-historical-archives
收藏Hugging Face2024-12-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/banned-historical-archives/banned-historical-archives
下载链接
链接失效反馈官方服务:
资源简介:
和谐历史档案馆数据集包含已录入和未录入的原始文件,涵盖了多种历史资料,如报纸、画报、杂志等。数据集的总大小超过1TB,目录结构包括原始文件、配置文件和辅助录入的脚本。此外,还有一部分资料存放在其他仓库,包括参考消息、人民日报、文汇报等,部分资料已精选录入,部分尚未录入。使用数据集时需注意磁盘空间充足,并建议使用git clone --depth 1参数进行克隆。贡献方面,少量文件可通过HuggingFace网页上传,大量文件建议通过git工具上传。
This dataset includes multiple subsets such as Reference News, Peoples Daily, Wenhuibao, and Cultural Revolution photos, which are stored in different links. The original file size exceeds 600GB and uses git LFS technology, requiring twice the storage space. When cloning the repository, pay attention to disk space and use specific parameters to optimize download speed.
提供机构:
banned-historical-archives
原始信息汇总
和谐历史档案馆数据集 - Banned Historical Archives Datasets
数据集概述
本仓库存放已录入和未录入的原始文件,其中 archives* 为已录入的文件,不定期从 GitHub 同步;todo 目录存放未(完全)录入的文件,其中一部分资料存放在子仓库。
数据集分类
使用注意事项
- 原始文件大小超过 600GB,因使用 git LFS,需占用两倍存储空间,克隆仓库时请确保磁盘剩余空间大于 1.2TB。
- 克隆仓库时建议使用
git clone --depth 1参数,否则将下载所有 commit 历史记录,影响下载速度。 todo文件夹中,应及时删除已录入的文稿,避免重复录入。- 使用命令清理当前 commit 未追踪的大文件:
git lfs prune && git gc。
搜集汇总
数据集介绍

构建方式
在数字人文与历史档案保存领域,和谐历史档案馆数据集通过系统化采集与整理构建而成。其核心方法包括从指定在线档案馆同步已录入的原始文件,并设立待处理目录收纳尚未整合的资料。数据集采用模块化目录结构,区分原始数据与配置文件,同时将部分报刊及影像资料存储于独立仓库,形成主次分明的资源网络。构建过程强调持续更新与社区协作,允许用户通过网页或Git工具贡献原始文件,并借助自动化流程处理OCR等任务,确保数据集的动态扩展与维护。
特点
该数据集在历史文献数字化方面展现出显著特点,其规模庞大,总容量超过4TB,涵盖多种媒介类型,包括报纸、画报、照片及裁判文书等,提供了多维度的历史视角。资料时间跨度广泛,尤其聚焦于特定历史时期,如部分资源标注为1949年前的内容,具有鲜明的时代印记。数据集结构清晰,分为已录入与待处理两部分,便于用户定向检索;同时,部分关键报刊如《人民日报》《文汇报》已进行精选录入,提升了核心资料的可访问性与研究价值,为学术探索提供了扎实的数据基础。
使用方法
研究者可利用该数据集进行历史学、社会学及媒体分析等跨学科探索。使用前需注意存储空间要求,建议通过Git克隆时采用深度参数以优化下载效率。数据集支持多种访问方式:用户可直接浏览已录入网站的原始文件,或通过HuggingFace平台检索独立仓库中的专项资料,如参考消息、文革照片等。对于数据贡献,社区提供了网页上传与Git提交两种渠道,并鼓励通过GitHub议题参与自动化OCR校正,促进数据集的协同完善与学术应用。
背景与挑战
背景概述
和谐历史档案馆数据集由banned-historical-archives组织创建,旨在系统性地收集与整理历史文献资料,特别是涉及特定时期的中文报纸、画报及档案文件。该数据集的核心研究问题聚焦于历史文本的数字化保存与开放获取,为历史学、社会学及数字人文领域提供原始数据支持。其影响力体现在促进跨学科研究,通过大规模非结构化数据的整合,助力学者深入探讨社会变迁与文化记忆的演变轨迹。
当前挑战
该数据集致力于解决历史文献数字化与长期保存的领域挑战,包括处理多源异构数据(如不同格式的报纸、图片)的标准化整合,以及确保资料完整性与可访问性。构建过程中面临显著困难:数据规模庞大,总文件超过4TB,对存储与传输构成压力;原始资料分散且部分未录入,需持续进行人工筛选与OCR处理,以提升数据质量与覆盖范围;同时,维护数据一致性与避免重复录入也成为关键瓶颈。
常用场景
经典使用场景
在历史学与社会科学领域,和谐历史档案馆数据集以其海量的原始档案资料,为学者提供了深入探究特定历史时期社会变迁的珍贵素材。该数据集最经典的使用场景在于支持历史文本的定量与定性分析,研究者可借助其收录的报纸、画报及文书等多样化文献,系统梳理历史事件的脉络,考察舆论导向的演变,从而揭示特定时代背景下的文化动态与意识形态特征。
实际应用
在实际应用层面,和谐历史档案馆数据集为教育、文化保存及数字人文项目提供了关键资源。教育机构可将其用于历史课程素材开发,增强教学的实证性;档案馆与图书馆可借助其进行文献的数字化备份与索引建设。同时,该数据集支持自然语言处理模型的训练,例如用于历史文本的实体识别、主题建模或风格分析,为文化遗产的智能管理与研究工具开发提供了数据支撑。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,主要集中在历史文本挖掘与数字档案构建领域。例如,基于其报纸子集的研究,学者开发了针对历史新闻的自动分类与时间线重建方法;在数字人文方面,有工作利用该数据集的画报与照片资料,建立了视觉文化分析框架。这些工作不仅拓展了历史研究的计算范式,也为构建更大型的历史知识图谱与交互式档案平台奠定了基础。
以上内容由遇见数据集搜集并总结生成



