five

chuvash-data/newspaper-krasnaya-chuvashiya

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/chuvash-data/newspaper-krasnaya-chuvashiya
下载链接
链接失效反馈
官方服务:
资源简介:
《Krasnaya Chuvashiya》是苏联共产党(布尔什维克)奥布拉斯特委员会和楚瓦什自治共和国中央执行委员会的每日社会政治报纸。该报纸从1929年10月17日至1951年12月30日出版,取代了《Trudovaya gazeta》;从1952年1月1日起更名为《Soviet Chuvashia》。数据来源为1929年至1951年的数字化档案。

Daily socio-political newspaper of the Oblast Committee of the AUCP(b) and the Central Executive Committee of the Chuvash ASSR. 17 Oct 1929 – 30 Dec 1951, replacing «Trudovaya gazeta»; from 1 Jan 1952 renamed «Soviet Chuvashia». Source: digitized 1929–1951.
提供机构:
chuvash-data
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集收录了苏联时期楚瓦什自治共和国党委与中央执行委员会机关报《红色楚瓦什》的数字化影像。源数据源自楚瓦什共和国国家图书馆的馆藏档案,时间跨度自1929年10月17日至1951年12月30日,完整覆盖了该报自《劳动报》更名后的历史阶段。数据集以镜像形式托管于HuggingFace平台,以俄语文本为主要内容,旨在为区域史、苏联新闻史及楚瓦什地方研究提供一手资料。
特点
数据集具备显著的时序连续性与历史完整性,跨越了苏联集体化、工业化及战后重建等关键时期。所有内容均来自官方日报,体裁涵盖社论、政令、地方新闻与经济活动报道,语言风格契合当时意识形态语境。其文本在年代上构成闭合序列,为纵向比较分析提供了稳定语料基础,且依托国家图书馆权威来源,保证了较高的保真度与学术引用价值。
使用方法
研究人员可将该数据集直接用于俄语历史文本挖掘,包括关键词频统计、主题建模及话语变迁分析。支持通过HuggingFace的datasets库加载,适用于自然语言处理中的预训练语料扩展或特定历史阶段的语义演化研究。建议结合OCR质检及时间戳元数据,筛选特定年份或事件时段的内容,以适配微观历史叙事或宏观社会语言学的定量分析需求。
背景与挑战
背景概述
在苏联时期,地方性报纸不仅是信息传播的媒介,更是政治宣传与社会动员的核心工具。数据集「newspaper-krasnaya-chuvashiya」聚焦于1929年至1951年间发行的楚瓦什自治苏维埃社会主义共和国《红色楚瓦什报》,该报由联共(布)楚瓦什地区委员会与中央执行委员会主办,是研究苏联地方政治史、社会变迁及语言演化的珍贵语料。由楚瓦什共和国国家图书馆主导数字化,并在HuggingFace平台开放。其核心研究价值在于,通过连续22年的版面内容,揭示集体化、工业化、卫国战争及战后重建时期地方舆论导向与民众生活的互动关系。该数据集的问世,为计算语言学、历史学与区域研究提供了第一手俄语文本资源,尤其填补了苏联少数民族地区报刊数字化资料的空缺,推动了数据驱动的地方史研究范式的发展。
当前挑战
该数据集所解决的领域问题在于,此前苏联报刊研究多集中于莫斯科与列宁格勒的主流报纸,而边疆地区的非俄语或俄语地方出版物长期被边缘化,难以进行系统化定量分析。构建过程中面临的核心挑战包括:原始报纸为纸质文献,历经数十年保存,部分页面存在污损、缺页或印刷模糊的问题,显著增加了光学字符识别的困难;文本版面复杂,标题、正文、广告与公告混排,需人工逐版标注以确保结构化提取的质量;此外,时间跨度涵盖战前与战时,部分年份的报纸编号可能缺失或不连续,需结合图书馆馆藏记录进行交叉验证。更为关键的是,历史俄语中的拼写差异与缩写规则,要求元数据设计必须兼容历史语言特征,方能支撑后续的时间序列分析与邻接领域研究。
常用场景
经典使用场景
《Красная Чувашия》数据集收录了1929年至1951年间苏共楚瓦什自治共和国党委与中央执行委员会的日报,涵盖苏联早期至斯大林时代晚期的社会政治动态。研究者常将其用于历史语料库构建,通过大规模文本挖掘分析苏联时期地方性报纸的叙事框架、意识形态变迁及民族政策演变,亦作为俄语历史语言学的宝贵素材,支持词汇演变与话语风格的时代对比研究。
实际应用
在实际应用中,该数据集对数字人文领域具有重要价值:历史学家可借助文本挖掘技术还原苏联地方报刊的传播网络,计算语言学家可训练俄语历史文本的OCR校正与词性标注模型。此外,记者与政策研究者能通过对比不同时期的社论措辞,追踪宣传策略的演变轨迹,为当代媒体话语研究提供历史参照系。
衍生相关工作
基于该数据集衍生的工作包括:构建楚瓦什地区历史事件知识图谱,开发俄语历史文本的时间序列情感分析模型,以及探究《红色楚瓦什人》与同期全苏报纸《真理报》在报道同一事件时的叙事差异。这些研究不仅拓展了斯拉夫历史语料库的边界,还催生了针对非平衡历史档案的自监督学习方法,在计算史学领域具有方法论示范意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作