five

The Russian Financial Statements Database (RFSD)

收藏
github2025-01-13 更新2025-01-14 收录
下载链接:
https://github.com/irlcode/RFSD
下载链接
链接失效反馈
官方服务:
资源简介:
俄罗斯财务报表数据库(RFSD)是一个开放的、统一收集的2011-2023年俄罗斯公司年度非合并财务报表的集合。它是第一个包含俄罗斯所有活跃公司信息的开放数据集,包括未提交报表的公司。数据来源于两个官方数据提供者:俄罗斯联邦统计局和联邦税务局。数据集以结构化的、列导向的、压缩的二进制格式Apache Parquet存储,按年份分区,使用户能够大规模查询感兴趣的变量。

The Russian Financial Statements Database (RFSD) is an open, uniformly curated collection of annual unconsolidated financial statements of Russian companies spanning the period from 2011 to 2023. It is the first open dataset containing information on all active companies in Russia, including those that failed to submit their financial statements. The dataset sources its data from two official providers: the Federal State Statistics Service of the Russian Federation and the Federal Tax Service. Stored in the structured, column-oriented, compressed binary format Apache Parquet, the dataset is partitioned by year, enabling users to conduct large-scale queries on variables of interest.
创建时间:
2025-01-13
原始信息汇总

俄罗斯财务报表数据库 (RFSD) 概述

数据集简介

  • 名称: 俄罗斯财务报表数据库 (RFSD)
  • 类型: 开放数据集
  • 内容: 包含俄罗斯所有活跃公司的年度非合并财务报表
  • 特点:
    • 首个包含俄罗斯所有活跃公司信息的开放数据集
    • 首个包含未提交财务报表公司的开放数据集
    • 数据来源:俄罗斯统计局 (Rosstat) 和俄罗斯联邦税务局 (Federal Tax Service)
    • 时间范围:2011-2023年,将持续更新
    • 数据恢复:通过非侵入性数据插补、报表衔接和协调,尽可能恢复数据

数据格式与存储

数据导入

Python

  • Hugging Face Datasets: python from datasets import load_dataset RFSD = load_dataset(irlspbru/RFSD)

  • 本地文件导入: python import pyarrow.dataset as ds RFSD = ds.dataset("local/path/to/RFSD")

R

  • 本地文件导入: R library(arrow) RFSD <- open_dataset("local/path/to/RFSD")

使用案例

  • 宏观经济学: 复制俄罗斯央行关于货币政策成本渠道的研究
  • 产业组织: 复制总要素生产率估计
  • 经济地理学: 基于公司地址的地理编码进行GDP空间化

常见问题

  • 数据来源: 数据来自俄罗斯统计局和联邦税务局
  • 数据缺失: 部分公司可能因法律原因未提交财务报表
  • 地理编码错误: 使用Nominatim进行地理编码,可能存在地址错误
  • 数据差异: 数据可能与商业数据源(如Interfax的SPARK)存在差异

数据集构建

  • 构建过程: 通过多个步骤收集、解析和整合数据
  • 依赖: 需要访问联邦税务局的API和俄罗斯统计局的数据

版本与更新政策

  • 版本: 1.0.0
  • 更新频率: 每年更新一次,通常在7月发布新版本

许可证

  • 许可证类型: CC BY-NC-SA 4.0
  • 版权: 贡献者所有,详见AUTHORS文件

引用

tex @unpublished{bondarkov2025rfsd, title={{R}ussian {F}inancial {S}tatements {D}atabase}, author={Bondarkov, Sergey and Ledenev, Victor and Skougarevskiy, Dmitriy}, note={arXiv preprint arXiv:2501.05841}, doi={https://doi.org/10.48550/arXiv.2501.05841}, year={2025} }

致谢与联系方式

  • 数据收集与处理: Sergey Bondarkov, Viktor Ledenev
  • 项目构思与验证: Dmitriy Skougarevskiy
搜集汇总
数据集介绍
main_image_url
构建方式
俄罗斯财务报表数据库(RFSD)的构建过程基于两个官方数据提供者——俄罗斯联邦统计局(Rosstat)和联邦税务局(Federal Tax Service)的公开数据。数据集涵盖了2011年至2023年期间俄罗斯所有活跃企业的年度非合并财务报表。通过非侵入性数据填补、报表衔接和标准化处理,尽可能恢复了缺失数据。数据集以Apache Parquet格式存储,采用按年份分区的结构化列式压缩二进制格式,便于用户按需查询特定变量。
特点
RFSD是首个涵盖俄罗斯所有活跃企业的公开数据集,首次包含了未提交报表的企业信息。数据集通过数据标准化和错误检测程序,确保了数据的准确性和一致性。此外,数据集还提供了地理编码信息,支持经济地理学的研究。RFSD的独特之处在于其免费开放的特性,且数据格式便于在统计软件中快速导入和处理。
使用方法
用户可以通过Hugging Face或Zenodo平台下载.parquet文件,或使用Hugging Face Datasets库直接加载数据。在Python环境中,用户可以使用`load_dataset`函数加载整个数据集或特定年份的数据,并通过Polars库进行高效处理。数据集还提供了变量名称的映射文件,便于用户将原始变量名转换为更具描述性的名称。在R环境中,用户可以通过`arrow`包读取数据,并使用`data.table`进行数据处理。数据集适用于宏观经济、产业组织和经济地理学等多个领域的研究。
背景与挑战
背景概述
俄罗斯财务报表数据库(RFSD)是一个开放的、经过统一处理的年度非合并财务报表数据集,涵盖了俄罗斯所有活跃企业的财务信息。该数据集由俄罗斯国家统计局(Rosstat)和联邦税务局(Federal Tax Service)提供,时间跨度为2011年至2023年,并将持续更新。RFSD的创建旨在为研究人员和宏观经济分析师提供一个全面、透明的数据源,以支持对俄罗斯企业财务状况的深入研究。该数据集通过非侵入性数据填补、报表衔接和统一处理,尽可能恢复了缺失数据,确保了数据的完整性和一致性。RFSD的发布标志着俄罗斯企业财务数据的首次公开化,为学术界和政策制定者提供了宝贵的资源。
当前挑战
RFSD在构建过程中面临多重挑战。首先,数据来源的多样性和复杂性要求对来自不同机构的财务数据进行统一处理,确保数据格式和标准的一致性。其次,由于部分企业未按时提交财务报表或提交了修正后的报表,数据完整性受到一定影响,需要通过数据填补技术进行修复。此外,地理编码的准确性也是一个重要问题,部分企业的地址信息不完整或存在错误,导致地理定位不准确。最后,数据集中存在一些异常值,如某些企业的财务数据明显超出合理范围,需要进一步的人工审核和标记。这些挑战不仅影响了数据的质量,也对后续的分析和应用提出了更高的要求。
常用场景
经典使用场景
俄罗斯财务报表数据库(RFSD)作为首个涵盖俄罗斯所有活跃企业的公开数据集,广泛应用于宏观经济研究、产业组织分析以及经济地理学等领域。其经典使用场景包括复制俄罗斯央行关于货币政策成本渠道的研究,以及估算企业的全要素生产率(TFP)。通过提供2011年至2023年的年度财务报表数据,RFSD为研究者提供了丰富的实证分析基础。
实际应用
在实际应用中,RFSD为政策制定者、经济学家和企业分析师提供了重要的数据支持。例如,宏观经济学者可以利用该数据集研究货币政策对企业成本的影响,产业组织研究者可以分析企业的生产效率,而经济地理学者则可以通过企业地址的地理编码,构建区域经济活动模型。此外,RFSD还为金融机构提供了企业信用风险评估的基础数据。
衍生相关工作
RFSD的发布催生了一系列相关研究。例如,Mogilyat等人(2024)利用该数据集复制了俄罗斯央行的货币政策成本渠道研究,Kaukin和Zhemkova(2023)则基于RFSD估算了企业的全要素生产率。此外,RFSD还为经济地理学者提供了新的研究工具,使其能够通过企业地址的地理编码,构建区域经济活动模型。这些研究不仅验证了RFSD的实用性,还推动了相关领域的学术进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作