The Russian Financial Statements Database (RFSD)|财务报表数据集|经济研究数据集
收藏俄罗斯财务报表数据库 (RFSD) 概述
数据集简介
- 名称: 俄罗斯财务报表数据库 (RFSD)
- 类型: 开放数据集
- 内容: 包含俄罗斯所有活跃公司的年度非合并财务报表
- 特点:
- 首个包含俄罗斯所有活跃公司信息的开放数据集
- 首个包含未提交财务报表公司的开放数据集
- 数据来源:俄罗斯统计局 (Rosstat) 和俄罗斯联邦税务局 (Federal Tax Service)
- 时间范围:2011-2023年,将持续更新
- 数据恢复:通过非侵入性数据插补、报表衔接和协调,尽可能恢复数据
数据格式与存储
- 格式: Apache Parquet(结构化、列式、压缩二进制格式)
- 存储位置:
- Hugging Face: https://huggingface.co/datasets/irlspbru/RFSD
- Zenodo: https://doi.org/10.5281/zenodo.14622209
数据导入
Python
-
Hugging Face Datasets: python from datasets import load_dataset RFSD = load_dataset(irlspbru/RFSD)
-
本地文件导入: python import pyarrow.dataset as ds RFSD = ds.dataset("local/path/to/RFSD")
R
- 本地文件导入: R library(arrow) RFSD <- open_dataset("local/path/to/RFSD")
使用案例
- 宏观经济学: 复制俄罗斯央行关于货币政策成本渠道的研究
- 产业组织: 复制总要素生产率估计
- 经济地理学: 基于公司地址的地理编码进行GDP空间化
常见问题
- 数据来源: 数据来自俄罗斯统计局和联邦税务局
- 数据缺失: 部分公司可能因法律原因未提交财务报表
- 地理编码错误: 使用Nominatim进行地理编码,可能存在地址错误
- 数据差异: 数据可能与商业数据源(如Interfax的SPARK)存在差异
数据集构建
- 构建过程: 通过多个步骤收集、解析和整合数据
- 依赖: 需要访问联邦税务局的API和俄罗斯统计局的数据
版本与更新政策
- 版本: 1.0.0
- 更新频率: 每年更新一次,通常在7月发布新版本
许可证
- 许可证类型: CC BY-NC-SA 4.0
- 版权: 贡献者所有,详见
AUTHORS
文件
引用
tex @unpublished{bondarkov2025rfsd, title={{R}ussian {F}inancial {S}tatements {D}atabase}, author={Bondarkov, Sergey and Ledenev, Victor and Skougarevskiy, Dmitriy}, note={arXiv preprint arXiv:2501.05841}, doi={https://doi.org/10.48550/arXiv.2501.05841}, year={2025} }
致谢与联系方式
- 数据收集与处理: Sergey Bondarkov, Viktor Ledenev
- 项目构思与验证: Dmitriy Skougarevskiy

典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录
光伏电站发电量预估数据
1、准确预测一个地区分布式光伏场站的整体输出功率,可以提高电网的稳定性,增加电网消纳光电能量的能力,在降低能源消耗成本的同时促进低碳能源发展,实现动态供需状态预测的方法,为绿色电力源网荷储的应用落地提供支持。 2、准确预估光伏电站发电量,可以自动发现一些有故障的设备或者低效电站,提升发电效能。1、逆变器及电站数据采集,将逆变器中计算累计发电量数据,告警数据同步到Maxcompute大数据平台 2、天气数据采集, 通过API获取ERA5气象数据包括光照辐射、云量、温度、湿度等 3、数据特征构建, 在大数据处理平台进行数据预处理,用累计发电量矫正小时平均发电功率,剔除异常数据、归一化。告警次数等指标计算 4、异常数据处理, 天气、设备数据根据经纬度信息进行融合, 并对融合后的数据进行二次预处理操作,剔除辐照度和发电异常的一些数据 5、算法模型训练,基于XGBoost算法模型对历史数据进行训练, 生成训练集并保存至OSS 6、算法模型预测,基于XGBoost算法模型接入OSS训练集对增量数据进行预测, 并评估预测准确率等效果数据,其中误差率=(发电量-预估发电量)/发电量,当误差率低于一定阈值时,该数据预测为准确。预测准确率=预测准确数量/预测数据总量。
浙江省数据知识产权登记平台 收录
中性笔商品在不同地区天猫平台的销售渗透率分析数据
销售渗透率通常定义为特定产品在潜在市场中的占有率。对公司天猫平台上中性笔商品在不同地区的销售渗透率进行分析,对于理解中性笔商品在不同地区的市场发展趋势、识别商品在不同地区的增长机会和潜在风险、指导公司选品规划和商品定价以及优化资源配置,具有重要的统计意义和实际应用价值。本数据也可为中性笔商品的供应商(生产厂商)和其他销售商同行在市场进入、产品开发、定价策略等方面提供参考。1.数据收集和预处理:(1)数据收集:收集公司在天猫平台上销售的中性笔商品在不同地区每季度的销售统计信息,具体包括商品类目、商品名称、销售渠道/平台、统计区域、统计年份和季度、本季度内单月最高销量、本季度内单月最低销量、本季度平均月销量。(2)数据预处理:对采集到的原始数据进行处理,去除缺失和异常数据。 2.建立销售渗透率分析模型:(1)计算本季度月均潜在销量:本季度月均潜在销量=本季度内单月最高销量-本季度内单月最低销量+本季度平均月销量;(2)计算本季度月均销售渗透率:本季度月均销售渗透率=(本季度平均月销量/本季度月均潜在销量)*100%;(3)销售渗透率分析:基于计算出的销售渗透率,根据区县划分不同的类别和级别,≥90%以上标记为“销售渗透率高”,50%-90%区间(不含50%和90%)内标记为“销售渗透率中等”,≤50%标记为“销售渗透率低”。分界线90%和50%通过公司内部与行业专家研讨确定。
浙江省数据知识产权登记平台 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录