five

chuvash-data/za-bolshevistskie-tempy

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/chuvash-data/za-bolshevistskie-tempy
下载链接
链接失效反馈
官方服务:
资源简介:
《Za Bolshevistskie Tempy》报纸是Poretsky区AUCP(b)委员会和区工人代表苏维埃的机关报。出版时间为1931年至1953年;1953年更名为《Banner of Communism》(《Znamya kommunizma》)。数字化来源为1932年至1946年的报纸。

Organ of the Poretsky district committee of the AUCP(b) and the district Soviet of workers’ deputies. Published 1931–1953; renamed in 1953 to «Banner of Communism» («Znamya kommunizma»). Source: digitized 1932–1946.
提供机构:
chuvash-data
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自俄罗斯楚瓦什共和国国家图书馆的馆藏数字化成果,收录了1932年至1946年间出版的《За большевистские темпы》(《为布尔什维克的步伐》)报纸全卷。该报纸原为1931年至1953年间苏联楚瓦什地区波列茨克区党的机关刊物,于1953年更名为《共产主义旗帜》。数据集以PDF文件或年度合订本的形式呈现,完整保留了原始报刊的版面与文字信息。
特点
数据集具有典型的苏联时期地方党报特征,内容涵盖政治动员、经济建设、农业生产及社会文化等多个维度,是研究1930至1940年代苏联基层意识形态宣传与乡村治理的重要史料。其时间跨度恰好覆盖了苏联工业化高潮、农业集体化深化及卫国战争等关键历史阶段,具有极高的历史文献价值。
使用方法
用户可通过HuggingFace平台直接访问该数据集,所有文件以PDF格式存储,便于直接阅读与引用。对于需要大规模文本分析的研究者,建议将PDF文件转换为机器可读的文本格式后进行OCR识别,再借助自然语言处理工具开展词频统计、主题建模或话语分析等计算语言学研究。
背景与挑战
背景概述
该数据集名为「za-bolshevistskie-tempy」,源自俄罗斯楚瓦什共和国国家图书馆的数字化项目,由 chuvash-data 团队整理并发布在 Hugging Face 平台上。数据集收录了苏联时期地方党报《За большевистские темпы》(意为「为布尔什维克的速度」)的数字化版本,该报为联共(布)波列茨克区委与区苏维埃的机关刊物,出版时间跨度为 1931 年至 1953 年,1953 年后更名为《Знамя коммунизма》(共产主义旗帜)。数据集涵盖 1932 年至 1946 年间共 15 年的报纸扫描件,以 PDF 或合订本形式呈现。该数据集对于研究苏联早期集体化、工业化时期的地方宣传话语、政治动员模式以及基层政权运作具有珍贵的史料价值,也为数字人文领域中斯拉夫语系历史文本的 OCR 与自然语言处理提供了独特语料。
当前挑战
该数据集所解决的领域问题在于:苏联地方党报的数字化档案分散且缺乏结构化访问接口,尤其对于非俄语研究者而言,获取并利用这些碎片化史料极为困难。构建过程中面临的核心挑战包括:第一,报纸为连续出版物,每年发行期数众多,文件数量庞大,如何在不遗漏关键日期的情况下实现完整收录是首要难题;第二,扫描件多为年代久远的纸质报纸,存在纸张泛黄、字迹模糊、版面破损等问题,对 OCR 识别准确率构成严峻考验;第三,数据集以 PDF 或合订本形式存储,缺乏统一的元数据标注标准,如出版日期、版面标题、作者信息等结构化标签,限制了精细化的文本挖掘与内容检索能力。
常用场景
经典使用场景
《Za Bolshevistskie Tempy》数据集汇聚了1932年至1946年间苏联楚瓦什地区一份地方党报的数字化档案,涵盖苏维埃时期基层政治宣传与经济建设的大量一手文本。它常被用于历史语言学与苏联新闻史研究,学者可借此追溯斯大林时代地方报纸的话语演变、政治动员策略以及官方意识形态在乡村地区的渗透路径。该数据集的高时间分辨率使其成为分析战时宣传与战后重建叙事变迁的珍贵语料库。
解决学术问题
该数据集有效解决了苏联基层媒体研究中档案分散、数字化程度低的长期困境,为学者提供了系统性的地方党报样本。它助力探究苏联集体化与工业化时期基层舆论建构机制,揭示中央政策如何在地方语境中被转译与强化。通过对比不同年份的文本,研究者能定量考察政治话语的连续性或断裂,从而更深刻地理解苏联社会动员与信息控制的内在逻辑,对重构20世纪30至40年代苏联乡村政治生态具有不可替代的学术价值。
衍生相关工作
围绕此数据集衍生了一系列标注与研究工作,例如基于该报纸全文开发的俄语历史词嵌入模型与时间序列主题演变分析工具。部分学者利用它构建了苏联地方党报的元数据目录,为后续的跨报刊对比研究奠定基础。此外,该数据集常与同时期其他苏联报纸(如中央级《真理报》)协同使用,以支持地方与中央宣传话语的差异化分析,推动了数字人文领域内苏联新闻史研究的计量化转向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作