five

wikipunk/fibo2023Q3|金融领域数据集|知识图谱数据集

收藏
hugging_face2023-10-04 更新2024-03-04 收录
金融领域
知识图谱
下载链接:
https://hf-mirror.com/datasets/wikipunk/fibo2023Q3
下载链接
链接失效反馈
资源简介:
FIBO(金融行业业务本体)是一个结构化的框架,旨在连接理论金融概念和现实世界的数据,特别适用于金融技术领域的机器学习研究。数据集由三元组(subject, predicate, object)组成,表示不同金融概念之间的关系。主题表示金融实体,谓词表示关系,对象表示关联实体。数据集的特征包括主题、谓词和对象,分别表示金融实体、关系和关联实体。FIBO提供了广泛的金融概念,从衍生品到证券,其设计基于知识表示和金融领域的专家知识,确保了对金融工具的深刻理解。此外,FIBO的结构化方法能够解码复杂的金融关系,使机器学习算法能够在大型数据集中识别模式和相关性。FIBO还能够将金融概念与现实世界的金融数据和控制词汇关联起来,这对于研究人员在实际环境中应用理论见解至关重要。
提供机构:
wikipunk
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 许可证: MIT
  • 标签: knowledge-graph, rdf, owl, ontology
  • 注释创建者: 专家生成
  • 数据集名称: FIBO
  • 数据集大小: 100K<n<1M
  • 任务类别: graph-ml

数据集特征

  • 特征:
    • subject: 字符串类型
    • predicate: 字符串类型
    • object: 字符串类型

数据集配置

  • 配置名称: default
  • 分割:
    • train:
      • 字节数: 56045523
      • 样本数: 236579

数据集大小

  • 总大小: 56045523

数据集描述

FIBO(金融行业业务本体)提供了一个结构化的框架,用于桥接理论金融概念和现实世界数据之间的差距。该数据集由三元组组成,表示不同金融概念和命名个体之间的关系,如市场参与者、公司和合同代理。

使用案例

  • 综合数据结构: FIBO涵盖了从衍生品到证券的广泛金融概念。
  • 解码复杂关系: 金融领域的复杂相互依赖关系通过FIBO的结构化方法得到清晰展示。
  • 与现实世界数据的关联: FIBO能够将金融概念与现实世界金融数据和受控词汇相关联。
  • 增强生成检索: 大型语言模型与增强生成检索(RAG)结合,有望革新金融数据的处理和解释方式。
  • 文档分类: 利用RAG对由FIBO概念分类的金融数据集进行分类,有助于金融分析师提高数据解释的准确性和深度。

构建和验证

  1. 构建: 从AboutFIBOProd-IncludingReferenceData导入到Protege 5.6.1。
  2. 推理: 使用ELK推理器插件进行推理。
  3. 一致性检查: 使用Protege的Debug Ontology插件确保本体的一致性。
  4. 导出: 验证后,推断的公理、断言的公理和注释被导出。
  5. 编码和压缩: 使用Apache Jena的riot工具转换为ntriples格式,并使用gzip压缩。

使用方法

  • 安装要求: python pip install datasets pip install rdflib

  • 加载数据集: python from datasets import load_dataset dataset = load_dataset(wikipunk/fibo2023Q3, split=train)

特征描述

  • Subject: 三元组的主体,通常代表特定的金融工具或实体。
  • Predicate: 三元组的谓词,表示主体和对象之间的关系。
  • Object: 三元组的对象,与主体通过谓词关联的实体或值。

示例

  • Subject: <https://spec.edmcouncil.org/fibo/ontology/FBC/FunctionalEntities/MarketsIndividuals/ServiceProvider-L-JEUVK5RWVJEN8W0C9M24>
  • Predicate: <http://www.w3.org/1999/02/22-rdf-syntax-ns#type>
  • Object: <https://spec.edmcouncil.org/fibo/ontology/BE/FunctionalEntities/FunctionalEntities/FunctionalEntity>

致谢

感谢FIBO贡献者的精心努力,他们的专业知识和奉献精神对于塑造金融行业的创新基石至关重要。

引用

bibtex @misc{fibo2023Q3, title={Financial Industry Business Ontology (FIBO)}, author={Object Management Group, Inc. and EDM Council, Inc. and Various Contributors}, year={2023}, note={Available as OWL 2 ontologies and UML models compliant with the Semantics for Information Modeling and Federation (SMIF) draft specification. Contributions are open on GitHub, consult the repository for a list of contributors.}, howpublished={url{https://spec.edmcouncil.org/fibo/}}, abstract={The Financial Industry Business Ontology (FIBO) is a collaborative effort to standardize the language used to define the terms, conditions, and characteristics of financial instruments; the legal and relationship structure of business entities; the content and time dimensions of market data; and the legal obligations and process aspects of corporate actions.}, license={MIT License, url{https://opensource.org/licenses/MIT}} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
FIBO数据集的构建过程体现了金融领域知识图谱的精细化和系统化。该数据集通过从GitHub导入FIBO本体,利用Protege软件进行本体推理和一致性检查,确保数据的逻辑严密性。随后,使用Apache Jena的riot工具将数据转换为ntriples格式,并通过gzip压缩,最终由Hugging Face数据集库解压并提供给用户。这一系列步骤保证了数据的高质量和易用性。
使用方法
使用FIBO数据集前,需安装datasets和rdflib库。通过Hugging Face Datasets库加载数据集,用户可以轻松访问和处理数据。数据集中的三元组以N3格式存储,便于使用RDFLib库进行解析。FIBO数据集不仅适用于金融领域的特征工程,还可用于图神经网络的特征提取,支持实体分类、关系预测和异常检测等高级应用。
背景与挑战
背景概述
在金融科技领域,数据的广度和金融工具的复杂性既是挑战也是机遇。金融行业业务本体(FIBO)提供了一个结构化框架,弥合了理论金融概念与现实世界数据之间的鸿沟。FIBO由EDM Council和Object Management Group等机构共同开发,旨在标准化金融工具、业务实体、市场数据和企业行为的定义。自2023年发布以来,FIBO已成为金融知识表示和机器学习研究的重要资源,推动了金融特征工程和模型优化的创新。
当前挑战
FIBO数据集在构建和应用过程中面临多重挑战。首先,金融领域的复杂性和多样性使得本体构建需要高度的专业知识和精确性,确保每个金融概念和关系的准确表示。其次,数据集的规模庞大,处理和分析需要高效的算法和计算资源,特别是在使用图神经网络(GNN)进行实体分类和关系预测时。此外,如何将FIBO与实时金融数据有效结合,以支持实际应用,仍是一个亟待解决的问题。最后,数据集的开放性和可扩展性要求持续的社区贡献和维护,以确保其与金融行业的快速发展保持同步。
常用场景
经典使用场景
在金融科技领域,FIBO数据集为研究人员提供了一个结构化的知识图谱,用于探索金融工具之间的复杂关系。通过其三元组结构,研究者能够深入分析金融实体之间的关联,从而为金融模型的构建和优化提供理论支持。
解决学术问题
FIBO数据集解决了金融领域中知识表示和语义理解的难题。通过其丰富的金融概念和关系,研究者能够更准确地建模金融工具及其交互,从而提升金融数据分析的精度和深度。此外,FIBO还为金融领域的知识图谱构建提供了标准化框架,推动了金融语义网的发展。
实际应用
在实际应用中,FIBO数据集被广泛用于金融企业的数据整合和知识管理。通过将FIBO与企业的实际数据结合,企业能够更好地理解其金融工具和市场行为,从而优化决策流程。此外,FIBO还为金融文档分类和检索提供了语义支持,提升了金融数据分析的效率。
数据集最近研究
最新研究方向
在金融科技领域,FIBO(金融行业业务本体)数据集的最新研究方向聚焦于如何利用其结构化框架推动金融数据的智能化处理与分析。随着图神经网络(GNNs)技术的快速发展,研究者们正探索如何将FIBO中的三元组关系转化为GNN的节点与边特征,以实现金融实体的分类、关系预测及异常检测等任务。此外,结合检索增强生成(RAG)技术,FIBO为大规模语言模型提供了丰富的金融知识背景,使其能够在金融文档分类与信息提取中展现出更高的准确性与深度。这些研究不仅提升了金融数据的可解释性,也为金融行业的智能化转型提供了强有力的技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

Arizona Cities by Population

A dataset listing Arizona cities by population for 2024.

www.arizona-demographics.com 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录