five

RFSD|财务报表数据集|数据分析数据集

收藏
huggingface2025-01-16 更新2025-01-17 收录
财务报表
数据分析
下载链接:
https://huggingface.co/datasets/irlspbru/RFSD
下载链接
链接失效反馈
资源简介:
俄罗斯财务报表数据库(RFSD)是一个开放的、统一的俄罗斯公司年度非合并财务报表集合,涵盖了2011年至2023年的数据,并将持续更新。数据集来源于俄罗斯统计局和联邦税务局,通过非侵入性数据插补、报表衔接和统一化处理,尽可能恢复数据。数据集以Apache Parquet格式存储,支持按年分区,便于用户查询感兴趣的变量。数据集还提供了R和Python环境下的数据导入指南,并附有详细的变量描述和使用案例。
创建时间:
2025-01-10
AI搜集汇总
数据集介绍
main_image_url
构建方式
俄罗斯财务报表数据库(RFSD)是一个开放的、经过统一处理的年度非合并财务报表数据集,涵盖了俄罗斯所有活跃企业的财务数据。该数据集来源于俄罗斯统计局(Rosstat)和联邦税务局(Federal Tax Service)两个官方数据提供者,涵盖了2011年至2023年的数据,并将持续更新。通过非侵入性数据填补、报表衔接和统一化处理,RFSD尽可能恢复了缺失的数据。数据以结构化的列式压缩二进制格式Apache Parquet存储,按年份分区,便于用户按需查询特定变量。
特点
RFSD是首个包含俄罗斯所有活跃企业财务信息的开放数据集,也是首个包含未提交报表企业的开放财务数据集。其独特之处在于数据的全面性和开放性,涵盖了从2011年至2023年的财务数据,并通过数据填补和统一化处理,确保了数据的完整性和一致性。此外,RFSD还提供了详细的变量定义和用户友好的变量名称,便于研究人员快速理解和使用数据。
使用方法
RFSD可以通过Hugging Face Datasets库或直接下载Parquet文件进行导入。在Python环境中,用户可以使用`load_dataset`函数加载整个数据集,或通过Polars库按年份加载特定数据。RFSD还提供了变量名称的映射文件,用户可以将原始变量名称替换为更具描述性的名称。在R环境中,用户可以使用`arrow`包加载数据,并通过过滤器按年份或特定变量进行查询。RFSD适用于宏观经济、产业组织和经济地理等多个领域的研究,提供了丰富的使用案例和详细的文档支持。
背景与挑战
背景概述
俄罗斯财务报表数据库(RFSD)是一个开放的、标准化的数据集,涵盖了俄罗斯所有活跃企业的年度非合并财务报表。该数据集由俄罗斯统计局和联邦税务局提供,时间跨度为2011年至2023年,并计划持续更新。RFSD的创建旨在为研究人员和宏观经济分析师提供一个全面且易于访问的财务数据资源,以支持对俄罗斯经济的研究。该数据集通过非侵入性数据插补、报表衔接和标准化处理,尽可能恢复了缺失的数据,确保了数据的完整性和一致性。RFSD的发布标志着俄罗斯企业财务数据的首次公开化,为学术界和政策制定者提供了宝贵的资源。
当前挑战
RFSD在构建过程中面临了多重挑战。首先,数据的完整性和准确性是一个核心问题,尽管数据集涵盖了大多数企业的财务报表,但仍存在部分企业未提交报表或提交的报表存在错误的情况。其次,数据的标准化处理需要克服不同企业报表格式不一致的问题,确保数据能够被统一分析和使用。此外,地理编码的准确性也是一个挑战,部分企业的地址信息不完整或存在错误,导致地理定位不准确。最后,数据的更新和维护需要持续的资源投入,以确保新数据的及时添加和旧数据的修正。这些挑战要求数据集在未来的更新中不断优化数据处理流程,提升数据的质量和可用性。
常用场景
经典使用场景
RFSD数据集在宏观经济研究中的经典使用场景包括对俄罗斯企业财务数据的全面分析,尤其是用于研究货币政策对企业成本的影响。例如,该数据集被用于复制俄罗斯中央银行关于货币政策成本渠道的研究,通过分析企业的利息支付数据,揭示货币政策对企业财务行为的传导机制。此外,RFSD还被广泛应用于工业组织领域,用于估算企业的全要素生产率(TFP),帮助研究者理解企业的生产效率及其变化趋势。
解决学术问题
RFSD数据集解决了学术界在俄罗斯企业财务数据获取和分析中的诸多难题。首先,它提供了俄罗斯所有活跃企业的年度财务报表,填补了公开数据在这一领域的空白。其次,通过数据协调和错误检测程序,RFSD确保了数据的准确性和一致性,避免了商业数据源中常见的错误和不一致问题。此外,该数据集还通过非侵入性数据插值和报表协调,最大限度地恢复了缺失数据,为研究者提供了更为完整和可靠的数据基础。
衍生相关工作
RFSD数据集衍生了许多经典的研究工作。例如,Mogiliat等人(2024)利用该数据集研究了俄罗斯货币政策对企业成本的影响,揭示了货币政策传导机制的关键特征。Kaukin和Zhemkova(2023)则利用RFSD估算了俄罗斯企业的全要素生产率,为工业组织领域的研究提供了重要的实证支持。此外,RFSD还被用于开发新的经济地理模型,通过企业地址的地理编码,实现了GDP的空间化分析,为经济地理学的研究开辟了新的方向。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Open Power System Data

Open Power System Data is a free-of-charge data platform dedicated to electricity system researchers. We collect, check, process, document, and publish data that are publicly available but currently inconvenient to use. The project is a service provider to the modeling community: a supplier of a public good. Learn more about its background or just go ahead and explore the data platform.

re3data.org 收录

Global Solar Dataset

在快速扩展的太阳能领域,找到全面的国家规模光伏(PV)数据集可能具有挑战性。资源通常分散在多个网站和API中,质量和可访问性差异显著。该仓库旨在通过将这些数据集的位置集中到一个位置来简化对这些数据集的访问,从而支持研究并促进新旧市场中太阳能预测模型的开发。

github 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。

www.nrel.gov 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录