FinReflectKG

Name: FinReflectKG
Creator: iGenius
Published: 2025-09-02 15:47:28
License: 暂无描述

Hugging Face2025-09-02 更新2025-09-03 收录

下载链接：

https://huggingface.co/datasets/iGeniusAI/FinReflectKG

下载链接

链接失效反馈

官方服务：

资源简介：

FinReflectKG是一个从2014年至2024年期间S&P 500公司的10-K SEC申报文件中提取的全面金融知识图谱数据集，包含1751万个归一化的三元组，每个三元组都带有完整的文本上下文。

FinReflectKG is a comprehensive financial knowledge graph dataset extracted from 10-K SEC filings of S&P 500 companies over the period from 2014 to 2024. It contains 17.51 million normalized triples, each with complete textual context.

提供机构：

iGenius

创建时间：

2025-09-02

原始信息汇总

FinReflectKG 数据集概述

数据集基本信息

名称: FinReflectKG
创建者: Domyn
语言: 英语
许可证: CC-BY-NC-4.0
数据规模: 1751万条规范化三元组
时间跨度: 2014-2024年
覆盖公司: 743家标普500公司

核心特征

从标普500公司10-K SEC文件中提取的大规模金融知识图谱数据集
每个三元组采用(实体, 关系, 目标)格式表示结构化事实
包含时间边界和丰富的上下文信息
提供完整的文本上下文
实体和关系经过规范化处理
包含时间信息（开始/结束日期）
丰富的元数据，包括源文档信息

数据结构

核心三元组组件

triplet_id: 每个三元组的唯一标识符
entity: 命名实体（规范化）
entity_type: 实体类别
relationship: 关系类型（规范化）
target: 目标实体（规范化）
target_type: 目标实体类别
start_date: 关系开始日期（月份 YYYY 格式）
end_date: 关系结束日期（月份 YYYY 格式或"default_end_timestamp"）
extraction_type: 提取方法（"default"或"extracted"）

文档元数据

ticker: 公司股票代码
year: 申报年份
source_file: 原始PDF文件名
page_id: PDF页面标识符
chunk_id: 文本块标识符

上下文和特征

chunk_text: 三元组的完整文本上下文
triplet_length: 三元组文本表示长度
chunk_text_length: 上下文文本长度
has_context: 是否提供上下文文本

时间信息

时间字段说明

格式: "月份 YYYY"（例如："January 2024"）
目的: 捕获每个关系的时间有效期

默认时间戳

当无法从文本上下文中可靠提取明确的时间信息时：

default_start_timestamp: 未提及或无法推断明确开始日期时使用
default_end_timestamp: 未提及或无法推断明确结束日期时使用

提取类型分类

"extracted": 开始日期和结束日期都成功从文本中提取
"default": 开始日期或结束日期（或两者）使用默认值

实体类型

包含与财务文档相关的各种实体类型，包括ORG、ORG_GOV、ORG_REG、GPE、PERSON、COMP、PRODUCT、EVENT、SECTOR、ECON_IND、FIN_INST、FIN_MARKET、CONCEPT、RAW_MATERIAL、LOGISTICS、ACCOUNTING_POLICY、RISK_FACTOR、LITIGATION、SEGMENT、FIN_METRIC、ESG_TOPIC、MACRO_CONDITION、REGULATORY_REQUIREMENT、COMMENTARY

关系类型

包含金融知识图谱的全面关系类型，包括Has_Stake_In、Announces、Operates_In、Introduces、Produces、Regulates、Involved_In、Impacted_By、Impacts、Positively_Impacts、Negatively_Impacts、Related_To、Member_Of、Invests_In、Increases、Decreases、Depends_On、Causes_Shortage_Of、Affects_Stock、Stock_Decline_Due_To、Stock_Rise_Due_To、Market_Reacts_To、Discloses、Faces、Guides_On、Complies_With、Subject_To、Supplies、Partners_With

数据质量

99.08%的日期采用正确的"月份 YYYY"格式
经过规范化的实体和关系（使用词形还原）
去重后的三元组
过滤无效数据
全面的数据结构和完整性验证

时间覆盖

总三元组数: 17,513,372 年份范围: 2014-2024 公司数量: 743

年份范围	三元组数量	精确数量	公司数量
2014-2018	7.55M	7,549,552	743
2019-2021	5.04M	5,043,004	743
2022-2024	4.92M	4,920,816	743
总计	17.51M	17,513,372	743

应用场景

研究应用

金融自然语言处理：命名实体识别、关系提取
知识图谱构建：构建金融知识库
时间分析：研究金融关系随时间的变化
风险评估：分析风险因素及其演变
合规研究：理解监管关系

行业应用

金融情报：SEC文件的自动化分析
尽职调查：全面的公司关系映射
ESG分析：环境、社会和治理洞察
市场研究：理解竞争格局
监管技术：合规和风险监控

数据来源

数据集源自标普500公司向SEC提交的10-K年度报告

伦理考虑

公共数据：所有源数据都是公开可用的SEC文件
无个人信息：专注于公司和金融实体
监管合规：尊重SEC披露要求
研究用途：用于学术和研究目的

引用

bibtex @article{arun2025finreflectkg, title={FinReflectKG: Agentic Construction and Evaluation of Financial Knowledge Graphs}, author={Arun, Abhinav and Dimino, Fabrizio and Agarwal, Tejas Prakash and Sarmah, Bhaskarjit and Pasquali, Stefano}, journal={arXiv preprint arXiv:2508.17906}, year={2025}, url={https://arxiv.org/pdf/2508.17906} }

联系方式

Reetu Raj Harsh (reeturaj.harsh@domyn.com)

搜集汇总

数据集介绍

构建方式

FinReflectKG数据集通过自动化代理系统从2014至2024年间标准普尔500指数成分股公司的10-K年报中提取结构化信息。采用先进的信息抽取技术识别金融实体及其关系，构建以（实体，关系，目标）为核心的三元组结构，并标注时间有效性与完整上下文文本，形成包含1751万条规范化三元组的大规模金融知识图谱。

特点

该数据集涵盖743家上市公司长达十年的财务数据，具有高度规范化的实体与关系体系，包含36种实体类型和31种关系类型。每个三元组均配备精确的时间戳与原始文本语境，支持对金融关系的动态演化分析。其99.08%的时间数据符合标准化格式，确保了时序分析的可信度与一致性。

使用方法

研究者可通过HuggingFace数据集库直接加载该资源，支持按公司代码、时间区间或关系类型进行多维过滤。适用于金融知识图谱构建、时序关系分析、风险因子追踪等场景，亦可通过GraphRAG技术增强金融问答系统的推理能力。使用时应遵循CC-BY-NC-4.0许可协议，仅限非商业研究用途。

背景与挑战

背景概述

金融知识图谱作为金融科技领域的重要研究方向，FinReflectKG数据集由Domyn研究团队于2025年构建，旨在解决金融文档中结构化知识提取与时间维度分析的难题。该数据集基于标准普尔500公司2014至2024年间的10-K年报文件，通过自动化智能体技术提取了1751万条标准化三元组，涵盖了实体关系、时间边界及完整上下文信息。其创新性体现在将自然语言处理与知识图谱技术深度融合，为金融风险分析、合规监管和投资决策提供了高质量的基础设施，显著推动了金融智能领域的研究进展。

当前挑战

FinReflectKG面临的核心挑战包括金融文档中复杂语义关系的准确提取，特别是时间敏感信息的识别与标准化处理。构建过程中需克服SEC文件非结构化数据的异构性，确保实体归一化与关系分类的一致性。时间戳的精确标注要求处理隐含时间表达式与默认时间逻辑的平衡，而大规模知识图谱的构建还需解决数据冗余消除与质量验证问题。这些挑战直接影响了金融知识图谱在实时分析、风险预测等应用场景的可靠性。

常用场景

经典使用场景

在金融知识图谱研究领域，FinReflectKG数据集为学者提供了标准化的实验基准。该数据集通过提取标普500公司十年间17.51百万条标准化三元组，构建了覆盖实体关系、时间维度和文本上下文的完整知识图谱框架。研究人员可基于此开展金融实体识别、关系抽取与时间序列分析等核心任务，为金融文本结构化处理提供重要数据支撑。

实际应用

在金融科技实践层面，该数据集为智能投研、风险管理和合规监控提供了核心数据基础设施。投资机构可利用其构建企业关系图谱，深度分析供应链依赖、竞争格局和风险暴露情况。监管科技领域则借助其时序特征实现政策影响评估和违规行为监测，为金融机构的ESG表现分析和系统性风险预警提供数据支持。

衍生相关工作

基于该数据集衍生的经典研究包括时序知识图谱补全模型、金融事件因果关系推理框架以及智能问答系统。这些工作充分利用其标准化实体关系和丰富上下文特征，开发了面向金融领域的GraphRAG架构和动态关系预测算法。后续研究进一步拓展至跨文档关系链接、金融风险传播建模等前沿方向，推动了金融人工智能领域的方法创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集