FnStatementRawDaTa
收藏Hugging Face2025-05-17 更新2025-05-18 收录
下载链接:
https://huggingface.co/datasets/nguyentranai07/FnStatementRawDaTa
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了与公司财务相关的各种特征,如现金及现金等价物、应收账款、库存、长期投资、负债、权益等,数据类型为浮点数。同时,README中还描述了数据集的划分情况,如训练集的样本数量和字节数。
创建时间:
2025-05-17
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称: FnStatementRawDaTa
- 存储位置: https://huggingface.co/datasets/nguyentranai07/FnStatementRawDaTa
- 下载大小: 13,433,096 字节
- 数据集大小: 171,277,487 字节
- 训练集样本数: 57,631 条
数据集特征
数据集包含以下主要特征(均为float64类型):
-
资产类:
- 现金及现金等价物(CashAndCashEquivalents)
- 应收账款(AccountsReceivable)
- 固定资产净值(PPENet)
- 商誉(Goodwill)
- 总资产(TotalAssets)
-
负债类:
- 短期借款(ShortTermBorrowings)
- 长期债务(LongTermDebt)
- 应付账款(AccountsPayable)
- 总负债(TotalLiabilities)
-
权益类:
- 普通股(CommonStock)
- 留存收益(RetainedEarnings)
- 股东权益(StockholdersEquity)
-
损益类:
- 收入(Revenue)
- 营业利润(OperatingIncome)
- 净利润(NetIncome)
- 每股收益(EPSBasic/EPSDiluted)
-
现金流量类:
- 经营活动现金流(CashFromOperations)
- 投资活动现金流(CashFromInvesting)
- 筹资活动现金流(CashFromFinancing)
数据集特点
- 包含完整的财务报表要素,涵盖资产负债表、利润表和现金流量表
- 包含大量明细科目,如:
- 各类存货明细(NaturalGasInventory/RawMaterialsInventory)
- 衍生金融工具(DerivativeAssets/DerivativeLiabilities)
- 养老金相关科目(PensionLiabilities/PensionContributions)
- 包含关联方交易相关科目(RelatedPartyRevenue/RelatedPartyExpenses)
- 包含监管相关科目(RegulatoryAssets/RegulatoryLiability)
数据规模
- 总特征数: 超过400个财务指标
- 主要键值: Key(字符串类型)
搜集汇总
数据集介绍

构建方式
FnStatementRawDaTa数据集构建于企业财务报告领域,通过系统化采集公开上市公司的标准化财务报表数据。该数据集采用结构化数据抽取技术,从企业年报、季报等法定披露文件中精确提取164个财务指标字段,涵盖资产负债表、现金流量表和利润表三大核心报表。数据清洗过程运用了多重校验机制,包括勾稽关系验证和异常值检测,确保各科目数据符合会计准则的平衡关系。时间维度上收录了超过57,000条企业财务记录,形成横跨多会计期间的完整财务数据链。
使用方法
使用该数据集时,建议先通过Key字段建立企业财务时间序列。分析场景可分为三类:横向跨企业财务比率比较需选取同行业数据,纵向趋势分析应保持会计政策一致性,预测建模需注意现金流量表与资产负债表的勾稽关系。机器学习应用可重点构建特征工程,如营运资本周转率等衍生指标。为避免幸存者偏差,建议配合退市企业数据使用。数据集支持pandas等工具直接加载,float64类型确保财务计算精度,缺失值处理推荐采用行业均值填充法。
背景与挑战
背景概述
FnStatementRawDaTa数据集作为财务分析领域的重要资源,由专业金融机构或研究团队构建,旨在提供全面且细粒度的企业财务数据。该数据集涵盖了资产负债表、现金流量表、利润表等核心财务报表项目,包括现金及等价物、应收账款、长期投资、股东权益等数百个财务指标,为量化金融研究和企业财务分析提供了结构化数据支持。其多维度特征设计反映了现代财务报告标准的复杂性,特别是在能源、公用事业等受监管行业领域,数据集通过包含监管资产、衍生品负债等特殊科目,满足了行业特定研究需求。
当前挑战
该数据集面临的首要挑战在于解决财务数据标准化问题,不同企业会计准则和报告格式导致的数据异构性增加了分析难度。构建过程中需克服数据采集的复杂性,包括处理非结构化财务报表的解析、缺失值填补以及跨时期数据可比性调整等技术难题。同时,能源行业特有的衍生金融工具和监管科目对数据标注的专业性提出极高要求,需要领域专家参与验证。此外,如何平衡数据的广度和深度,在保持指标全面性的同时确保每个字段的数据质量,是数据集维护中的持续性挑战。
常用场景
经典使用场景
FnStatementRawDaTa数据集作为财务领域的重要资源,广泛应用于企业财务健康状况的量化分析。其涵盖的现金及现金等价物、应收账款、长期债务等关键财务指标,为研究人员提供了深入分析企业资产负债结构的丰富素材。在金融工程领域,该数据集常被用于构建企业信用评级模型,通过多维度财务指标预测企业违约风险。
解决学术问题
该数据集有效解决了财务分析领域数据粒度不足的问题,其细分的400余项财务指标为学术研究提供了前所未有的数据支持。在会计信息质量研究方面,学者们利用该数据集验证了财务报告透明度与企业价值的相关性理论。同时,其标准化的数据结构极大便利了跨国企业财务特征的比较研究,推动了公司金融理论的实证发展。
实际应用
在商业实践中,投资机构依托该数据集开发智能投研系统,通过实时监控企业财务指标变化发现投资机会。银行信贷部门将其整合至风控模型,提升贷款决策的精准度。上市公司则利用同类企业的财务基准数据,进行战略对标分析。监管部门通过大规模财务数据分析,增强了对系统性金融风险的识别能力。
数据集最近研究
最新研究方向
在金融科技与会计信息分析领域,FnStatementRawDaTa数据集因其全面的财务指标覆盖而成为研究热点。该数据集包含企业资产负债、现金流量及利润表等核心财务数据,为机器学习模型训练提供了丰富特征。近期研究主要聚焦于利用深度学习技术挖掘财务数据间的非线性关系,构建企业信用风险评估模型。随着ESG投资理念的兴起,部分学者开始探索将该数据集与环境社会治理指标结合,开发可持续性财务分析框架。在实务应用层面,基于该数据集开发的自动化财务舞弊检测系统已展现出优于传统统计方法的性能,其通过捕捉异常科目关联模式,显著提升了审计效率。
以上内容由遇见数据集搜集并总结生成



