wikipunk/fibo2023Q3|金融领域数据集|知识图谱数据集
收藏数据集概述
基本信息
- 语言: 英语
- 许可证: MIT
- 标签: knowledge-graph, rdf, owl, ontology
- 注释创建者: 专家生成
- 数据集名称: FIBO
- 数据集大小: 100K<n<1M
- 任务类别: graph-ml
数据集特征
- 特征:
- subject: 字符串类型
- predicate: 字符串类型
- object: 字符串类型
数据集配置
- 配置名称: default
- 分割:
- train:
- 字节数: 56045523
- 样本数: 236579
- train:
数据集大小
- 总大小: 56045523
数据集描述
FIBO(金融行业业务本体)提供了一个结构化的框架,用于桥接理论金融概念和现实世界数据之间的差距。该数据集由三元组组成,表示不同金融概念和命名个体之间的关系,如市场参与者、公司和合同代理。
使用案例
- 综合数据结构: FIBO涵盖了从衍生品到证券的广泛金融概念。
- 解码复杂关系: 金融领域的复杂相互依赖关系通过FIBO的结构化方法得到清晰展示。
- 与现实世界数据的关联: FIBO能够将金融概念与现实世界金融数据和受控词汇相关联。
- 增强生成检索: 大型语言模型与增强生成检索(RAG)结合,有望革新金融数据的处理和解释方式。
- 文档分类: 利用RAG对由FIBO概念分类的金融数据集进行分类,有助于金融分析师提高数据解释的准确性和深度。
构建和验证
- 构建: 从AboutFIBOProd-IncludingReferenceData导入到Protege 5.6.1。
- 推理: 使用ELK推理器插件进行推理。
- 一致性检查: 使用Protege的Debug Ontology插件确保本体的一致性。
- 导出: 验证后,推断的公理、断言的公理和注释被导出。
- 编码和压缩: 使用Apache Jena的riot工具转换为ntriples格式,并使用gzip压缩。
使用方法
-
安装要求: python pip install datasets pip install rdflib
-
加载数据集: python from datasets import load_dataset dataset = load_dataset(wikipunk/fibo2023Q3, split=train)
特征描述
- Subject: 三元组的主体,通常代表特定的金融工具或实体。
- Predicate: 三元组的谓词,表示主体和对象之间的关系。
- Object: 三元组的对象,与主体通过谓词关联的实体或值。
示例
- Subject:
<https://spec.edmcouncil.org/fibo/ontology/FBC/FunctionalEntities/MarketsIndividuals/ServiceProvider-L-JEUVK5RWVJEN8W0C9M24>
- Predicate:
<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>
- Object:
<https://spec.edmcouncil.org/fibo/ontology/BE/FunctionalEntities/FunctionalEntities/FunctionalEntity>
致谢
感谢FIBO贡献者的精心努力,他们的专业知识和奉献精神对于塑造金融行业的创新基石至关重要。
引用
bibtex @misc{fibo2023Q3, title={Financial Industry Business Ontology (FIBO)}, author={Object Management Group, Inc. and EDM Council, Inc. and Various Contributors}, year={2023}, note={Available as OWL 2 ontologies and UML models compliant with the Semantics for Information Modeling and Federation (SMIF) draft specification. Contributions are open on GitHub, consult the repository for a list of contributors.}, howpublished={url{https://spec.edmcouncil.org/fibo/}}, abstract={The Financial Industry Business Ontology (FIBO) is a collaborative effort to standardize the language used to define the terms, conditions, and characteristics of financial instruments; the legal and relationship structure of business entities; the content and time dimensions of market data; and the legal obligations and process aspects of corporate actions.}, license={MIT License, url{https://opensource.org/licenses/MIT}} }

THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录
Arizona Cities by Population
A dataset listing Arizona cities by population for 2024.
www.arizona-demographics.com 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录