five

FinReflectKG

收藏
arXiv2025-08-25 更新2025-08-28 收录
下载链接:
https://github.com/fin-kg-lab/FinReflectKG/tree/main/100-529B/README.md
下载链接
链接失效反馈
官方服务:
资源简介:
FinReflectKG是一个开源、大规模的金融知识图谱数据集,由所有S&P 100公司在2024年的年度SEC 10-K文件构建而成。该数据集旨在促进金融领域人工智能研究和应用。数据集采用智能文档解析、表格感知块划分、模式引导的迭代提取和反射驱动的反馈等技术构建,并支持三种提取模式:单次提取、多次提取和反射代理提取。数据集已通过全面的评估流程进行了评估,并可在公开地址访问。

FinReflectKG is an open-source, large-scale financial knowledge graph dataset constructed from the 2024 annual SEC 10-K filings of all S&P 100 companies. This dataset aims to facilitate AI research and applications in the financial domain. It is built using technologies including intelligent document parsing, table-aware block partitioning, schema-guided iterative extraction, and reflection-driven feedback. The dataset supports three extraction modes: single-pass extraction, multi-round extraction, and reflection agent-based extraction. It has been evaluated through a comprehensive evaluation process and is accessible via a public address.
提供机构:
纽约大学
创建时间:
2025-08-25
搜集汇总
数据集介绍
main_image_url
构建方式
在金融知识图谱构建领域,FinReflectKG采用了一套严谨的多阶段流程。该数据集基于标准普尔100指数成分公司的最新年报(SEC 10-K文件),通过智能文档解析层提取多格式内容,保留文本与表格的语义关联。随后采用表格感知的分块算法,将表格作为原子单元处理以避免信息碎片化,并结合预定义模式指导的迭代提取框架,通过反射驱动的智能代理进行多轮优化,最终生成高质量的五元组知识表示。
特点
FinReflectKG的核心特点体现在其规模性与质量控制的平衡。作为当前最大的开源金融知识图谱数据集,它完整覆盖标普100公司的监管披露信息,包含经过规则校验和统计验证的语义关系。数据集支持三种提取模式(单次、多次和反射代理),其中反射模式在规则合规性上达到64.8%的最高分,且在精确度、覆盖度和相关性指标上均优于基线方法。其模式化的实体类型(如机构、风险因子、监管要求)和关系类型(如控股关系、合规关系)确保了金融领域语义表达的规范性。
使用方法
该数据集的设计支持灵活的科研与应用部署。研究者可通过提供的多模式提取框架选择适合的精度-效率平衡方案,反射代理模式适用于高精度要求的场景,而单次模式适合实时处理。数据集支持典型下游任务如实体搜索、多跳问答和风险信号生成,并可与实时新闻流集成进行动态知识更新。评估层集成了基于规则的检查、统计验证和LLM评判的多维评估方法,用户可据此验证提取质量并适配特定应用场景。
背景与挑战
背景概述
金融知识图谱构建面临文档结构复杂与监管严格的独特挑战,FinReflectKG数据集由纽约研究团队于2025年创建,基于标准普尔100指数企业的SEC 10-K年报文件构建。该数据集旨在解决金融领域缺乏大规模开源知识图谱的问题,通过智能文档解析、表格感知分块和反射驱动提取技术,为金融人工智能研究提供高质量的结构化知识资源,显著推动了金融风险分析、实体搜索与预测模型的发展。
当前挑战
金融知识图谱构建需应对领域问题与工程实施的双重挑战:在领域层面,SEC文件具有高度异构性与监管术语复杂性,要求精确提取企业关系、风险因子与财务指标等语义信息;在构建过程中,需克服表格数据保留、实体规范化与模式合规性等难题,特别是反射代理机制需平衡提取效率与准确性,同时确保评估框架涵盖规则检查、统计验证与LLM评判等多维度指标。
常用场景
经典使用场景
在金融信息抽取领域,FinReflectKG数据集被广泛应用于基于SEC 10-K文件的语义关系挖掘。该数据集通过智能文档解析、表格感知分块和模式引导的迭代提取技术,构建了包含企业实体、财务指标和风险因素等多元关系的知识图谱。研究人员利用其反射驱动的智能体框架,能够从复杂的财务披露文件中提取标准化的五元组关系,为金融知识推理提供结构化基础。
解决学术问题
该数据集解决了金融领域大规模知识图谱构建中的语义异构性和模式规范化难题。通过引入反射驱动的反馈机制,显著提升了实体归一化精度和关系抽取的合规性,在规则检查中达到64.8%的总体合规率。其多维度评估体系为金融知识图谱的质量验证设立了新基准,推动了领域内可信知识表示方法的发展。
衍生相关工作
该数据集催生了多个金融知识计算的重要研究方向,包括基于EDC框架的模式自由构建方法、时态知识图谱的因果推理模型以及LLM即法官的评估范式创新。相关研究扩展了其在主题投资分析中的应用,推动了金融事件时间线构建和跨文档共指消解技术的发展,为构建动态可演化的金融知识体系奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作