five

FinReflectKG

收藏
Hugging Face2025-09-02 更新2025-09-03 收录
下载链接:
https://huggingface.co/datasets/iGeniusAI/FinReflectKG
下载链接
链接失效反馈
官方服务:
资源简介:
FinReflectKG是一个从2014年至2024年期间S&P 500公司的10-K SEC申报文件中提取的全面金融知识图谱数据集,包含1751万个归一化的三元组,每个三元组都带有完整的文本上下文。

FinReflectKG is a comprehensive financial knowledge graph dataset extracted from 10-K SEC filings of S&P 500 companies over the period from 2014 to 2024. It contains 17.51 million normalized triples, each with complete textual context.
提供机构:
iGenius
创建时间:
2025-09-02
原始信息汇总

FinReflectKG 数据集概述

数据集基本信息

  • 名称: FinReflectKG
  • 创建者: Domyn
  • 语言: 英语
  • 许可证: CC-BY-NC-4.0
  • 数据规模: 1751万条规范化三元组
  • 时间跨度: 2014-2024年
  • 覆盖公司: 743家标普500公司

核心特征

  • 从标普500公司10-K SEC文件中提取的大规模金融知识图谱数据集
  • 每个三元组采用(实体, 关系, 目标)格式表示结构化事实
  • 包含时间边界和丰富的上下文信息
  • 提供完整的文本上下文
  • 实体和关系经过规范化处理
  • 包含时间信息(开始/结束日期)
  • 丰富的元数据,包括源文档信息

数据结构

核心三元组组件

  • triplet_id: 每个三元组的唯一标识符
  • entity: 命名实体(规范化)
  • entity_type: 实体类别
  • relationship: 关系类型(规范化)
  • target: 目标实体(规范化)
  • target_type: 目标实体类别
  • start_date: 关系开始日期(月份 YYYY 格式)
  • end_date: 关系结束日期(月份 YYYY 格式或"default_end_timestamp")
  • extraction_type: 提取方法("default"或"extracted")

文档元数据

  • ticker: 公司股票代码
  • year: 申报年份
  • source_file: 原始PDF文件名
  • page_id: PDF页面标识符
  • chunk_id: 文本块标识符

上下文和特征

  • chunk_text: 三元组的完整文本上下文
  • triplet_length: 三元组文本表示长度
  • chunk_text_length: 上下文文本长度
  • has_context: 是否提供上下文文本

时间信息

时间字段说明

  • 格式: "月份 YYYY"(例如:"January 2024")
  • 目的: 捕获每个关系的时间有效期

默认时间戳

当无法从文本上下文中可靠提取明确的时间信息时:

  • default_start_timestamp: 未提及或无法推断明确开始日期时使用
  • default_end_timestamp: 未提及或无法推断明确结束日期时使用

提取类型分类

  • "extracted": 开始日期和结束日期都成功从文本中提取
  • "default": 开始日期或结束日期(或两者)使用默认值

实体类型

包含与财务文档相关的各种实体类型,包括ORG、ORG_GOV、ORG_REG、GPE、PERSON、COMP、PRODUCT、EVENT、SECTOR、ECON_IND、FIN_INST、FIN_MARKET、CONCEPT、RAW_MATERIAL、LOGISTICS、ACCOUNTING_POLICY、RISK_FACTOR、LITIGATION、SEGMENT、FIN_METRIC、ESG_TOPIC、MACRO_CONDITION、REGULATORY_REQUIREMENT、COMMENTARY

关系类型

包含金融知识图谱的全面关系类型,包括Has_Stake_In、Announces、Operates_In、Introduces、Produces、Regulates、Involved_In、Impacted_By、Impacts、Positively_Impacts、Negatively_Impacts、Related_To、Member_Of、Invests_In、Increases、Decreases、Depends_On、Causes_Shortage_Of、Affects_Stock、Stock_Decline_Due_To、Stock_Rise_Due_To、Market_Reacts_To、Discloses、Faces、Guides_On、Complies_With、Subject_To、Supplies、Partners_With

数据质量

  • 99.08%的日期采用正确的"月份 YYYY"格式
  • 经过规范化的实体和关系(使用词形还原)
  • 去重后的三元组
  • 过滤无效数据
  • 全面的数据结构和完整性验证

时间覆盖

总三元组数: 17,513,372 年份范围: 2014-2024 公司数量: 743

年份范围 三元组数量 精确数量 公司数量
2014-2018 7.55M 7,549,552 743
2019-2021 5.04M 5,043,004 743
2022-2024 4.92M 4,920,816 743
总计 17.51M 17,513,372 743

应用场景

研究应用

  • 金融自然语言处理:命名实体识别、关系提取
  • 知识图谱构建:构建金融知识库
  • 时间分析:研究金融关系随时间的变化
  • 风险评估:分析风险因素及其演变
  • 合规研究:理解监管关系

行业应用

  • 金融情报:SEC文件的自动化分析
  • 尽职调查:全面的公司关系映射
  • ESG分析:环境、社会和治理洞察
  • 市场研究:理解竞争格局
  • 监管技术:合规和风险监控

数据来源

数据集源自标普500公司向SEC提交的10-K年度报告

伦理考虑

  • 公共数据:所有源数据都是公开可用的SEC文件
  • 无个人信息:专注于公司和金融实体
  • 监管合规:尊重SEC披露要求
  • 研究用途:用于学术和研究目的

引用

bibtex @article{arun2025finreflectkg, title={FinReflectKG: Agentic Construction and Evaluation of Financial Knowledge Graphs}, author={Arun, Abhinav and Dimino, Fabrizio and Agarwal, Tejas Prakash and Sarmah, Bhaskarjit and Pasquali, Stefano}, journal={arXiv preprint arXiv:2508.17906}, year={2025}, url={https://arxiv.org/pdf/2508.17906} }

联系方式

Reetu Raj Harsh (reeturaj.harsh@domyn.com)

搜集汇总
数据集介绍
main_image_url
构建方式
FinReflectKG数据集通过自动化代理系统从2014至2024年间标准普尔500指数成分股公司的10-K年报中提取结构化信息。采用先进的信息抽取技术识别金融实体及其关系,构建以(实体,关系,目标)为核心的三元组结构,并标注时间有效性与完整上下文文本,形成包含1751万条规范化三元组的大规模金融知识图谱。
特点
该数据集涵盖743家上市公司长达十年的财务数据,具有高度规范化的实体与关系体系,包含36种实体类型和31种关系类型。每个三元组均配备精确的时间戳与原始文本语境,支持对金融关系的动态演化分析。其99.08%的时间数据符合标准化格式,确保了时序分析的可信度与一致性。
使用方法
研究者可通过HuggingFace数据集库直接加载该资源,支持按公司代码、时间区间或关系类型进行多维过滤。适用于金融知识图谱构建、时序关系分析、风险因子追踪等场景,亦可通过GraphRAG技术增强金融问答系统的推理能力。使用时应遵循CC-BY-NC-4.0许可协议,仅限非商业研究用途。
背景与挑战
背景概述
金融知识图谱作为金融科技领域的重要研究方向,FinReflectKG数据集由Domyn研究团队于2025年构建,旨在解决金融文档中结构化知识提取与时间维度分析的难题。该数据集基于标准普尔500公司2014至2024年间的10-K年报文件,通过自动化智能体技术提取了1751万条标准化三元组,涵盖了实体关系、时间边界及完整上下文信息。其创新性体现在将自然语言处理与知识图谱技术深度融合,为金融风险分析、合规监管和投资决策提供了高质量的基础设施,显著推动了金融智能领域的研究进展。
当前挑战
FinReflectKG面临的核心挑战包括金融文档中复杂语义关系的准确提取,特别是时间敏感信息的识别与标准化处理。构建过程中需克服SEC文件非结构化数据的异构性,确保实体归一化与关系分类的一致性。时间戳的精确标注要求处理隐含时间表达式与默认时间逻辑的平衡,而大规模知识图谱的构建还需解决数据冗余消除与质量验证问题。这些挑战直接影响了金融知识图谱在实时分析、风险预测等应用场景的可靠性。
常用场景
经典使用场景
在金融知识图谱研究领域,FinReflectKG数据集为学者提供了标准化的实验基准。该数据集通过提取标普500公司十年间17.51百万条标准化三元组,构建了覆盖实体关系、时间维度和文本上下文的完整知识图谱框架。研究人员可基于此开展金融实体识别、关系抽取与时间序列分析等核心任务,为金融文本结构化处理提供重要数据支撑。
实际应用
在金融科技实践层面,该数据集为智能投研、风险管理和合规监控提供了核心数据基础设施。投资机构可利用其构建企业关系图谱,深度分析供应链依赖、竞争格局和风险暴露情况。监管科技领域则借助其时序特征实现政策影响评估和违规行为监测,为金融机构的ESG表现分析和系统性风险预警提供数据支持。
衍生相关工作
基于该数据集衍生的经典研究包括时序知识图谱补全模型、金融事件因果关系推理框架以及智能问答系统。这些工作充分利用其标准化实体关系和丰富上下文特征,开发了面向金融领域的GraphRAG架构和动态关系预测算法。后续研究进一步拓展至跨文档关系链接、金融风险传播建模等前沿方向,推动了金融人工智能领域的方法创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作