The Russian Financial Statements Database (RFSD)|财务报表数据集|经济研究数据集

github2025-01-13 更新2025-01-14 收录

财务报表

经济研究

下载链接：

https://github.com/irlcode/RFSD

下载链接

链接失效反馈

资源简介：

俄罗斯财务报表数据库（RFSD）是一个开放的、统一收集的2011-2023年俄罗斯公司年度非合并财务报表的集合。它是第一个包含俄罗斯所有活跃公司信息的开放数据集，包括未提交报表的公司。数据来源于两个官方数据提供者：俄罗斯联邦统计局和联邦税务局。数据集以结构化的、列导向的、压缩的二进制格式Apache Parquet存储，按年份分区，使用户能够大规模查询感兴趣的变量。

创建时间：

2025-01-13

原始信息汇总

俄罗斯财务报表数据库 (RFSD) 概述

数据集简介

名称: 俄罗斯财务报表数据库 (RFSD)
类型: 开放数据集
内容: 包含俄罗斯所有活跃公司的年度非合并财务报表
特点:
- 首个包含俄罗斯所有活跃公司信息的开放数据集
- 首个包含未提交财务报表公司的开放数据集
- 数据来源：俄罗斯统计局 (Rosstat) 和俄罗斯联邦税务局 (Federal Tax Service)
- 时间范围：2011-2023年，将持续更新
- 数据恢复：通过非侵入性数据插补、报表衔接和协调，尽可能恢复数据

数据格式与存储

格式: Apache Parquet（结构化、列式、压缩二进制格式）
存储位置:
- Hugging Face: https://huggingface.co/datasets/irlspbru/RFSD
- Zenodo: https://doi.org/10.5281/zenodo.14622209

数据导入

Python

Hugging Face Datasets: python from datasets import load_dataset RFSD = load_dataset(irlspbru/RFSD)
本地文件导入: python import pyarrow.dataset as ds RFSD = ds.dataset("local/path/to/RFSD")

R

本地文件导入: R library(arrow) RFSD <- open_dataset("local/path/to/RFSD")

使用案例

宏观经济学: 复制俄罗斯央行关于货币政策成本渠道的研究
产业组织: 复制总要素生产率估计
经济地理学: 基于公司地址的地理编码进行GDP空间化

常见问题

数据来源: 数据来自俄罗斯统计局和联邦税务局
数据缺失: 部分公司可能因法律原因未提交财务报表
地理编码错误: 使用Nominatim进行地理编码，可能存在地址错误
数据差异: 数据可能与商业数据源（如Interfax的SPARK）存在差异

数据集构建

构建过程: 通过多个步骤收集、解析和整合数据
依赖: 需要访问联邦税务局的API和俄罗斯统计局的数据

版本与更新政策

版本: 1.0.0
更新频率: 每年更新一次，通常在7月发布新版本

许可证

许可证类型: CC BY-NC-SA 4.0
版权: 贡献者所有，详见AUTHORS文件

引用

tex @unpublished{bondarkov2025rfsd, title={{R}ussian {F}inancial {S}tatements {D}atabase}, author={Bondarkov, Sergey and Ledenev, Victor and Skougarevskiy, Dmitriy}, note={arXiv preprint arXiv:2501.05841}, doi={https://doi.org/10.48550/arXiv.2501.05841}, year={2025} }

致谢与联系方式

数据收集与处理: Sergey Bondarkov, Viktor Ledenev
项目构思与验证: Dmitriy Skougarevskiy

AI搜集汇总

数据集介绍

构建方式

俄罗斯财务报表数据库（RFSD）的构建过程基于两个官方数据提供者——俄罗斯联邦统计局（Rosstat）和联邦税务局（Federal Tax Service）的公开数据。数据集涵盖了2011年至2023年期间俄罗斯所有活跃企业的年度非合并财务报表。通过非侵入性数据填补、报表衔接和标准化处理，尽可能恢复了缺失数据。数据集以Apache Parquet格式存储，采用按年份分区的结构化列式压缩二进制格式，便于用户按需查询特定变量。

特点

RFSD是首个涵盖俄罗斯所有活跃企业的公开数据集，首次包含了未提交报表的企业信息。数据集通过数据标准化和错误检测程序，确保了数据的准确性和一致性。此外，数据集还提供了地理编码信息，支持经济地理学的研究。RFSD的独特之处在于其免费开放的特性，且数据格式便于在统计软件中快速导入和处理。

使用方法

用户可以通过Hugging Face或Zenodo平台下载.parquet文件，或使用Hugging Face Datasets库直接加载数据。在Python环境中，用户可以使用`load_dataset`函数加载整个数据集或特定年份的数据，并通过Polars库进行高效处理。数据集还提供了变量名称的映射文件，便于用户将原始变量名转换为更具描述性的名称。在R环境中，用户可以通过`arrow`包读取数据，并使用`data.table`进行数据处理。数据集适用于宏观经济、产业组织和经济地理学等多个领域的研究。

背景与挑战

背景概述

俄罗斯财务报表数据库（RFSD）是一个开放的、经过统一处理的年度非合并财务报表数据集，涵盖了俄罗斯所有活跃企业的财务信息。该数据集由俄罗斯国家统计局（Rosstat）和联邦税务局（Federal Tax Service）提供，时间跨度为2011年至2023年，并将持续更新。RFSD的创建旨在为研究人员和宏观经济分析师提供一个全面、透明的数据源，以支持对俄罗斯企业财务状况的深入研究。该数据集通过非侵入性数据填补、报表衔接和统一处理，尽可能恢复了缺失数据，确保了数据的完整性和一致性。RFSD的发布标志着俄罗斯企业财务数据的首次公开化，为学术界和政策制定者提供了宝贵的资源。

当前挑战

RFSD在构建过程中面临多重挑战。首先，数据来源的多样性和复杂性要求对来自不同机构的财务数据进行统一处理，确保数据格式和标准的一致性。其次，由于部分企业未按时提交财务报表或提交了修正后的报表，数据完整性受到一定影响，需要通过数据填补技术进行修复。此外，地理编码的准确性也是一个重要问题，部分企业的地址信息不完整或存在错误，导致地理定位不准确。最后，数据集中存在一些异常值，如某些企业的财务数据明显超出合理范围，需要进一步的人工审核和标记。这些挑战不仅影响了数据的质量，也对后续的分析和应用提出了更高的要求。

常用场景

经典使用场景

俄罗斯财务报表数据库（RFSD）作为首个涵盖俄罗斯所有活跃企业的公开数据集，广泛应用于宏观经济研究、产业组织分析以及经济地理学等领域。其经典使用场景包括复制俄罗斯央行关于货币政策成本渠道的研究，以及估算企业的全要素生产率（TFP）。通过提供2011年至2023年的年度财务报表数据，RFSD为研究者提供了丰富的实证分析基础。

实际应用

在实际应用中，RFSD为政策制定者、经济学家和企业分析师提供了重要的数据支持。例如，宏观经济学者可以利用该数据集研究货币政策对企业成本的影响，产业组织研究者可以分析企业的生产效率，而经济地理学者则可以通过企业地址的地理编码，构建区域经济活动模型。此外，RFSD还为金融机构提供了企业信用风险评估的基础数据。

衍生相关工作

RFSD的发布催生了一系列相关研究。例如，Mogilyat等人（2024）利用该数据集复制了俄罗斯央行的货币政策成本渠道研究，Kaukin和Zhemkova（2023）则基于RFSD估算了企业的全要素生产率。此外，RFSD还为经济地理学者提供了新的研究工具，使其能够通过企业地址的地理编码，构建区域经济活动模型。这些研究不仅验证了RFSD的实用性，还推动了相关领域的学术进展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取；气象实测数据从气象站获取，气象站建于电站30号箱变附近，每5分钟将采集的数据通过光纤传输到机房；数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统（包括30TF计算刀片机、250TB并行存储）进行中尺度模式计算后输出预报产品，每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心收录

光伏电站发电量预估数据

1、准确预测一个地区分布式光伏场站的整体输出功率，可以提高电网的稳定性，增加电网消纳光电能量的能力，在降低能源消耗成本的同时促进低碳能源发展，实现动态供需状态预测的方法，为绿色电力源网荷储的应用落地提供支持。 2、准确预估光伏电站发电量，可以自动发现一些有故障的设备或者低效电站，提升发电效能。1、逆变器及电站数据采集,将逆变器中计算累计发电量数据,告警数据同步到Maxcompute大数据平台 2、天气数据采集, 通过API获取ERA5气象数据包括光照辐射、云量、温度、湿度等 3、数据特征构建, 在大数据处理平台进行数据预处理，用累计发电量矫正小时平均发电功率，剔除异常数据、归一化。告警次数等指标计算 4、异常数据处理, 天气、设备数据根据经纬度信息进行融合, 并对融合后的数据进行二次预处理操作，剔除辐照度和发电异常的一些数据 5、算法模型训练,基于XGBoost算法模型对历史数据进行训练, 生成训练集并保存至OSS 6、算法模型预测,基于XGBoost算法模型接入OSS训练集对增量数据进行预测, 并评估预测准确率等效果数据，其中误差率=(发电量-预估发电量)/发电量，当误差率低于一定阈值时，该数据预测为准确。预测准确率=预测准确数量/预测数据总量。

浙江省数据知识产权登记平台收录

中性笔商品在不同地区天猫平台的销售渗透率分析数据

销售渗透率通常定义为特定产品在潜在市场中的占有率。对公司天猫平台上中性笔商品在不同地区的销售渗透率进行分析，对于理解中性笔商品在不同地区的市场发展趋势、识别商品在不同地区的增长机会和潜在风险、指导公司选品规划和商品定价以及优化资源配置，具有重要的统计意义和实际应用价值。本数据也可为中性笔商品的供应商（生产厂商）和其他销售商同行在市场进入、产品开发、定价策略等方面提供参考。1.数据收集和预处理：（1）数据收集：收集公司在天猫平台上销售的中性笔商品在不同地区每季度的销售统计信息，具体包括商品类目、商品名称、销售渠道/平台、统计区域、统计年份和季度、本季度内单月最高销量、本季度内单月最低销量、本季度平均月销量。（2）数据预处理：对采集到的原始数据进行处理，去除缺失和异常数据。 2.建立销售渗透率分析模型：（1）计算本季度月均潜在销量：本季度月均潜在销量=本季度内单月最高销量-本季度内单月最低销量+本季度平均月销量；（2）计算本季度月均销售渗透率：本季度月均销售渗透率=（本季度平均月销量/本季度月均潜在销量）*100%；（3）销售渗透率分析：基于计算出的销售渗透率，根据区县划分不同的类别和级别，≥90%以上标记为“销售渗透率高”，50%-90%区间（不含50%和90%）内标记为“销售渗透率中等”，≤50%标记为“销售渗透率低”。分界线90%和50%通过公司内部与行业专家研讨确定。

浙江省数据知识产权登记平台收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

GME Data

关于2021年GameStop股票活动的数据，包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录