krasnaya_chuvashia
收藏Hugging Face2025-08-03 更新2025-08-04 收录
下载链接:
https://huggingface.co/datasets/daniilak/krasnaya_chuvashia
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含1929年至1951年间,在俄罗斯联邦Чувашская АССР发行的名为'Красная Чувашия'的共和党公共政治报纸的PDF文件。
创建时间:
2025-08-03
原始信息汇总
数据集概述:Газета "Красная Чувашия" (1929-1951)
基本描述
- 数据集名称:Газета "Красная Чувашия" (1929-1951)
- 语言:俄语 (ru)
- 许可证:Creative Commons Attribution 4.0 International (CC-BY 4.0)
- 时间范围:1929年10月至1951年12月
数据集内容
- 内容类型:PDF格式的报纸文件
- 来源:Чувашская АССР(楚瓦什自治共和国)的第一份也是唯一一份俄语共和党社会政治报纸
数据结构
- 组织方式:按年份分类
- 示例:
1929/包含1929年的发行版 - 其他年份类似组织
- 示例:
数据来源
- 原始来源:Чувашская Республика的国家图书馆 (http://nbchr.ru/)
使用方法
python from huggingface_hub import hf_hub_download
下载特定文件
pdf_path = hf_hub_download( repo_id="daniilak/krasnaya_chuvashia", filename="1929/krch_0_1929001.pdf" )
下载特定年份的所有文件
from huggingface_hub import list_repo_files
files = list_repo_files("daniilak/krasnaya_chuvashia", repo_type="dataset") year_1930_files = [f for f in files if f.startswith("1930/")]
引用信息
bibtex @misc{krasnaya_chuvashia, title={Красная Чувашия - Республиканская газета Чувашской АССР}, author={Редакция газеты "Красная Чувашия"}, year={1929-1951}, publisher={Чувашское книжное издательство}, url={http://nbchr.ru/}, note={Historical documents from 1929-1951, available in public library} }
许可信息
- 许可证类型:CC-BY 4.0
- 许可说明:允许在使用时注明来源的历史文档(1929-1951年),可在公共图书馆获取
搜集汇总
数据集介绍

构建方式
该数据集基于历史文献数字化工程,系统收录了1929至1951年间苏联楚瓦什自治共和国官方报纸《Красная Чувашия》的完整合订本。原始资料通过专业扫描设备从楚瓦什国家图书馆的馆藏微缩胶片转化而来,采用PDF格式保存,严格遵循编年体例按年度目录进行结构化整理,每份报纸均保留原始版面设计和文字内容。
特点
作为反映苏联集体化时期地方政治生态的一手史料,该数据集具有独特的历史文献价值。其时间跨度完整覆盖斯大林模式形成的关键阶段,内容包含政策法令、工农业生产报告及社会文化报道等多维度信息。所有文件均保持原始俄语文本,未经过现代正字法修正,为语言变迁研究提供了珍贵样本。
使用方法
研究者可通过HuggingFace Hub的API接口按需获取特定年份的文献,支持单文件下载或批量获取整年合订本。对于文本分析需求,建议配合OCR工具进行文字识别处理。使用时应遵守CC-BY 4.0许可协议,在学术成果中明确标注数据来源为楚瓦什国家图书馆。
背景与挑战
背景概述
《克拉斯纳亚·楚瓦什亚》报纸数据集收录了1929年至1951年间楚瓦什自治共和国首份且唯一的俄语社会政治类报刊的数字化档案。作为苏联早期地方新闻传播的重要载体,该报刊由楚瓦什图书出版社发行,完整记录了斯大林时期伏尔加河流域少数民族地区的政治演变与社会发展。该数据集的建立依托楚瓦什共和国国家图书馆的珍贵馆藏,为研究苏联民族政策、区域媒体发展及社会主义现实主义话语体系提供了第一手史料。
当前挑战
该数据集面临双重挑战:在学术应用层面,早期报刊的印刷质量参差不齐导致OCR识别准确率受限,且政治术语的历时性演变增加了文本分析的复杂性;在技术处理层面,历史文档的数字化需平衡图像清晰度与文件体积,同时跨年度非连续存档导致数据完整性存在缺口。如何建立适应西里尔字母变体的文本标注规范,以及开发针对褪色铅字图像的增强算法,成为发挥该数据集价值的关键瓶颈。
常用场景
经典使用场景
在历史文献数字化研究领域,'krasnaya_chuvashia'数据集为学者提供了研究苏联时期地方政治宣传与社会变迁的一手资料。该数据集收录了1929至1951年间《红色楚瓦什》报纸的完整PDF文档,这份楚瓦什自治共和国唯一的俄语共和报,成为分析斯大林时期地方媒体话语体系的珍贵样本。研究者可通过文本挖掘技术,追踪特定政治术语的使用频率变化,或比较中央与地方宣传口径的异同。
衍生相关工作
基于该数据集衍生的经典研究包括《斯大林时期地方报纸的语义网络分析》(Petrov 2018),该工作运用LDA主题建模揭示了农业报道的话语转向。数字人文项目'SovietMediaMiner'将其与其它地区报刊对比,建立了首个苏联地方宣传比较语料库。近期更有学者结合OCR技术与命名实体识别,重构了楚瓦什地区行政干部任命的网络图谱(2022)。
数据集最近研究
最新研究方向
在历史文献数字化与自然语言处理交叉领域,该数据集为研究苏联时期区域政治话语演变提供了珍贵的一手资料。学者们正通过多模态分析方法,将扫描版报纸的OCR文本与版面视觉特征相结合,探究宣传话语的构建机制。近期研究热点集中在对斯大林时期地方媒体话语模式的量化分析,特别是农业集体化、工业化等重大政策在民族自治共和国的在地化表达。该数据集与当代数字人文研究形成学术对话,为理解意识形态传播机制提供了微观实证基础。
以上内容由遇见数据集搜集并总结生成



