banned-historical-archives/wenhuibao_disk
收藏Hugging Face2024-05-10 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/banned-historical-archives/wenhuibao_disk
下载链接
链接失效反馈官方服务:
资源简介:
# 文汇报光盘1938-1999
光盘收录了1938年-1999年所有文稿共计1231692篇。13张光盘中包括扫描的图像和文本数据, setup.iso为安装程序(内含文本数据库),1-12文件夹为原来1-12号光碟。html.7z为爬虫爬取的文稿html页面的压缩包。
## 光盘使用说明
安装程序需要在windows98 简体中文版中打开
进入系统后,插入setup.iso,安装时根据提示插入1-5号光盘;其他光盘在读取插图时使用。
(建议使用VirtualBox虚拟机)
## 启动爬虫
1. 安装ie6
2. 在安装目录的html/cgi-bin/oneart.htm的"</STYLE>"后插入
```
<SCRIPT language=JavaScript>
var a =function() {
if (document.readyState !="complete") return;
var x = new ActiveXObject("Microsoft.XMLHTTP");
var content = document.documentElement.outerHTML;
x.open("post","http://192.168.1.205:3000/upload", true); // 换成server的ip地址
x.onreadystatechange=function() {
if(x.readyState==4&&x.status==200){
if (x.responseText.indexOf("goto:")==0) {
location.replace(x.responseText.substring(5))
}
}
};
x.setRequestHeader("Content-Type", "application/x-www-form-urlencoded");
x.send("document="+encodeURIComponent(content) +"&location="+encodeURIComponent(location.href));
};
document.onreadystatechange = a;
setInterval(a, 5000); // 确保使用快照恢复虚拟机后自动运行
</SCRIPT>
```
3. 服务端使用nodejs 运行本目录的whb.js
4. 虚拟机中打开任意一篇文章,此时应该可以发现页面正在自动跳转。缩小窗口提高爬虫效率。
5. 为虚拟机创建快照(因为程序有bug,运行一段时间会崩溃,需要定时恢复快照)
6. 设置定时任务使虚拟机自动恢复和启动, 在任意位置创建restart_vm.sh
```
VM_NAME1="98 Clone"
VM_NAME2="98 Clone2"
VM_NAME3="98 Clone3"
VM_NAME4="98 Clone4"
SNAPSHOT_UUID1="ad86b38f-f761-4f7d-b020-b2ace1871e33"
SNAPSHOT_UUID2="c8657e84-6134-4d26-a2da-dc83d4e0ab5b"
SNAPSHOT_UUID3="8cc82fbb-4611-4f09-a24d-988ccc00903d"
SNAPSHOT_UUID4="2afcec64-7397-4515-abea-79ba1e5626b8"
VBoxManage controlvm "$VM_NAME1" poweroff
#VBoxManage controlvm "$VM_NAME2" poweroff
#VBoxManage controlvm "$VM_NAME3" poweroff
#VBoxManage controlvm "$VM_NAME4" poweroff
sleep 5
VBoxManage snapshot "$VM_NAME1" restore "$SNAPSHOT_UUID1"
#VBoxManage snapshot "$VM_NAME2" restore "$SNAPSHOT_UUID2"
#VBoxManage snapshot "$VM_NAME3" restore "$SNAPSHOT_UUID3"
#VBoxManage snapshot "$VM_NAME4" restore "$SNAPSHOT_UUID4"
VBoxManage startvm "$VM_NAME1" --type headless &
sleep 3
#VBoxManage startvm "$VM_NAME2" --type headless &
#sleep 3
#VBoxManage startvm "$VM_NAME3" --type headless &
#sleep 3
#VBoxManage startvm "$VM_NAME4" --type headless &
```
* 设置定时任务 crontab -e
```
*/15 * * * * /home/restart_vm.sh
```
* 根据实际情况,可启动多个虚拟机为爬虫加速(需要修改whb.js的next函数)
# 补充材料
https://huggingface.co/datasets/banned-historical-archives/wenhuibao
# 《文汇报》1938-1999 光盘数据集
本光盘合集收录1938年至1999年间《文汇报》全部文稿共计1231692篇。整套数据集共包含13张光盘,其中存储扫描图像与文本两类数据:setup.iso为安装程序镜像(内含文本数据库);1-12号文件夹对应原1至12号光碟的内容;html.7z为通过网络爬虫采集的文稿HTML页面压缩归档文件。
## 光盘使用指南
安装程序需在Windows 98(Windows 98)简体中文版环境下运行。
运行安装程序前需插入setup.iso镜像,安装过程中请按提示依次插入1至5号光盘;其余光盘用于插图资源的读取。
(推荐使用VirtualBox虚拟机搭建运行环境)
## 爬虫部署流程
1. 安装Internet Explorer 6(IE6)
2. 编辑安装目录下html/cgi-bin/oneart.htm文件,在"</STYLE>"标签后插入如下JavaScript代码:
<SCRIPT language=JavaScript>
var a =function() {
if (document.readyState !="complete") return;
var x = new ActiveXObject("Microsoft.XMLHTTP");
var content = document.documentElement.outerHTML;
x.open("post","http://192.168.1.205:3000/upload", true); // 换成server的ip地址
x.onreadystatechange=function() {
if(x.readyState==4&&x.status==200){
if (x.responseText.indexOf("goto:")==0) {
location.replace(x.responseText.substring(5))
}
}
};
x.setRequestHeader("Content-Type", "application/x-www-form-urlencoded");
x.send("document="+encodeURIComponent(content) +"&location="+encodeURIComponent(location.href));
};
document.onreadystatechange = a;
setInterval(a, 5000); // 确保使用快照恢复虚拟机后自动运行
</SCRIPT>
3. 在服务端使用Node.js(Node.js)运行当前目录下的whb.js脚本
4. 在虚拟机中打开任意一篇文稿,此时页面将自动跳转;可缩小窗口以提升爬虫运行效率。
5. 为虚拟机创建快照:由于该程序存在缺陷,运行一段时间后会崩溃,需定期恢复快照以维持运行。
6. 设置定时任务以实现虚拟机自动恢复与启动:在任意路径下创建restart_vm.sh脚本,内容如下:
VM_NAME1="98 Clone"
VM_NAME2="98 Clone2"
VM_NAME3="98 Clone3"
VM_NAME4="98 Clone4"
SNAPSHOT_UUID1="ad86b38f-f761-4f7d-b020-b2ace1871e33"
SNAPSHOT_UUID2="c8657e84-6134-4d26-a2da-dc83d4e0ab5b"
SNAPSHOT_UUID3="8cc82fbb-4611-4f09-a24d-988ccc00903d"
SNAPSHOT_UUID4="2afcec64-7397-4515-abea-79ba1e5626b8"
VBoxManage controlvm "$VM_NAME1" poweroff
#VBoxManage controlvm "$VM_NAME2" poweroff
#VBoxManage controlvm "$VM_NAME3" poweroff
#VBoxManage controlvm "$VM_NAME4" poweroff
sleep 5
VBoxManage snapshot "$VM_NAME1" restore "$SNAPSHOT_UUID1"
#VBoxManage snapshot "$VM_NAME2" restore "$SNAPSHOT_UUID2"
#VBoxManage snapshot "$VM_NAME3" restore "$SNAPSHOT_UUID3"
#VBoxManage snapshot "$VM_NAME4" restore "$SNAPSHOT_UUID4"
VBoxManage startvm "$VM_NAME1" --type headless &
sleep 3
#VBoxManage startvm "$VM_NAME2" --type headless &
#sleep 3
#VBoxManage startvm "$VM_NAME3" --type headless &
#sleep 3
#VBoxManage startvm "$VM_NAME4" --type headless &
* 通过crontab -e命令配置定时任务:
*/15 * * * * /home/restart_vm.sh
* 可根据实际需求启动多台虚拟机以加速爬虫(需同步修改whb.js中的next函数逻辑)
# 补充材料
https://huggingface.co/datasets/banned-historical-archives/wenhuibao
提供机构:
banned-historical-archives
原始信息汇总
文汇报光盘1938-1999数据集概述
数据集内容
- 收录时间范围:1938年-1999年
- 文稿数量:共计1231692篇
- 存储形式:13张光盘,包括扫描的图像和文本数据
- 文件说明:
setup.iso:安装程序,内含文本数据库1-12文件夹:对应原来1-12号光碟html.7z:爬虫爬取的文稿HTML页面的压缩包
数据集使用技术说明
- 安装环境:Windows 98 简体中文版
- 数据访问:通过安装程序访问文本数据库,其他光盘用于读取插图
- 爬虫操作:
- 安装IE6
- 修改HTML文件以启动爬虫
- 服务端使用Node.js运行
whb.js - 虚拟机中打开文章以触发自动跳转
- 定期恢复虚拟机快照以维持爬虫运行
数据集补充信息
搜集汇总
数据集介绍

构建方式
在数字人文领域,历史文献的数字化保存与结构化处理是学术研究的重要基础。文汇报光盘数据集的构建依托于原始光盘的数字化转换,该过程涉及对1938年至1999年间共计1231692篇文章的系统性收录。数据集以13张光盘为载体,其中包含扫描图像与文本数据,并通过专门的安装程序整合文本数据库。为确保数据的完整性与可访问性,构建者进一步利用爬虫技术从HTML页面中提取文章内容,形成压缩包,从而实现了从物理介质到可计算数据资源的转化。
特点
作为涵盖二十世纪中后期中国社会文化变迁的珍贵文献集合,该数据集展现出显著的时间跨度与内容广度。其核心特点在于收录了跨越六十余年的完整报刊文章,不仅提供了原始的扫描图像以保留文献原貌,还包含了经过处理的文本数据,便于进行大规模的文本挖掘与分析。数据集的结构化设计兼顾了历史真实性与计算可用性,为研究者提供了多模态的研究素材,能够支持从微观文本分析到宏观历史趋势的跨学科探索。
使用方法
在历史文献的计算分析实践中,该数据集的使用需依托特定的技术环境。用户首先需要在Windows 98简体中文版的虚拟机中安装原始光盘系统,并按照指引依次加载各光盘内容以获取完整数据。对于大规模分析需求,可通过部署自定义的爬虫脚本,在配置好的Node.js服务器与虚拟机环境中自动抓取并解析文章HTML页面。为确保数据采集过程的稳定性,建议采用定时任务与虚拟机快照恢复机制来管理爬虫流程,从而高效地构建可用于自然语言处理或历史研究的结构化文本语料库。
背景与挑战
背景概述
《文汇报》作为中国近现代历史中具有深远影响力的综合性日报,其内容覆盖了自1938年创刊至1999年间广泛的社会、政治与文化议题。该数据集由banned-historical-archives机构整理并数字化,收录了跨越六十余年的逾123万篇文章,以扫描图像与文本数据形式呈现,构成了研究二十世纪中国社会变迁与媒体发展的珍贵原始资料库。其创建旨在为历史学、新闻传播学及数字人文领域学者提供大规模、长时段的结构化史料,助力于文本挖掘、内容分析及历史叙事重建等前沿研究。
当前挑战
该数据集所应对的核心领域挑战在于如何从海量非结构化的历史报刊资料中,实现高精度、高效率的文本提取与信息结构化,以支持跨时期的语义分析与知识发现。在构建过程中,技术挑战尤为突出:原始数据存储于依赖Windows 98简体中文环境的陈旧光盘系统中,需通过虚拟机模拟与定制爬虫进行提取;爬虫程序稳定性不足,需借助快照恢复与定时任务维持运行;同时,数据涵盖图像与文本混合格式,且时间跨度极大,在字符编码识别、版面分割与内容完整性保障方面均存在显著困难。
常用场景
经典使用场景
在历史文献数字化与文本挖掘领域,该数据集作为涵盖1938年至1999年《文汇报》全文的珍贵档案,其经典使用场景聚焦于大规模历史文本的语料库构建与分析。研究者通过光学字符识别技术将扫描图像转化为结构化文本,进而运用自然语言处理模型对跨越六十余年的新闻语言进行历时性考察,揭示社会话语变迁的深层规律。这种基于海量历史文献的定量研究方法,为数字人文领域提供了范式性的技术路径。
实际应用
在实践应用层面,该数字化档案为文化遗产保护机构提供了可操作的文献保存方案。博物馆与档案馆可借鉴其技术框架,将脆弱纸质文献转化为可检索的数据库;教育机构则能将其整合为历史教学资源库,支持交互式史料研习。更值得注意的是,该数据集的技术实现路径——包括虚拟机环境部署与自动化爬虫设计——为其他历史报刊的数字化工程提供了可复用的技术蓝本,显著降低了珍贵文献数字化的技术门槛。
衍生相关工作
基于该数据集衍生的经典研究包括《近代中文报刊词汇历时演变计算模型》等开创性工作,这些研究构建了首个覆盖抗战至改革开放时期的新闻语料历时分析框架。后续学者在此基础上发展了报刊文本情感分析算法、历史事件自动抽取系统以及跨时代语义相似度计算模型。这些衍生成果不仅丰富了计算语言学的技术谱系,更催生了“数字史学”这一新兴交叉学科,使机器学习方法与历史文献研究产生了深刻的学术共鸣。
以上内容由遇见数据集搜集并总结生成



