FinancialDatasets
收藏github2024-05-23 更新2024-05-31 收录
下载链接:
https://github.com/smoothnlp/FinancialDatasets
下载链接
链接失效反馈官方服务:
资源简介:
SmoothNLP金融文本数据集,包含企业工商信息、金融讯息新闻、专栏资讯、投资机构信息、投资事件和36氪新闻等多个子数据集,适用于NLP研究。
The SmoothNLP Financial Text Dataset encompasses multiple sub-datasets including corporate business information, financial news, column articles, investment institution details, investment events, and 36Kr news, making it suitable for NLP research.
创建时间:
2019-05-27
原始信息汇总
数据集概述
数据集名称
- SmoothNLP 金融文本数据集(公开)
数据集内容
| 数据名称 | 数据字段 | 样本量 | 总量 | 下载链接 |
|---|---|---|---|---|
| 企业工商信息 | 名称,公司名称,公司介绍,工商,地址,工商注册id,成立时间,法人代表,注册资金,统一信用代码,网址 |
1万 | 50万 | 下载 |
| 金融讯息新闻 | title-新闻标题,content-新闻内容,pub_ts-发稿日期 |
2万 | 210万 | 下载 |
| 专栏资讯 | title-新闻标题,content-新闻内容,pub_ts-发稿日期 |
1万 | 58万 | 下载 |
| 投资机构信息 | 机构名称,介绍,行业,规模,轮次 |
1K | 3万 | 下载 |
| 投资事件 | 事件资讯,投资方,融资方,融资事件,轮次,金额 |
2K | 7万 | 下载 |
| 36氪新闻 | title-新闻标题,content-新闻内容,url-网址 |
1万 | 11万 | 下载 |
推荐研究方向
- Embedding (Word2Vec, Bert, 等)
- 实体识别 - NER
- 无监督聚类: 基于企业描述信息, 进行竞品聚类
- 企业行业分类
- 标题总结 - Text Summary
- 序列分类 - Sequence Classification
数据展示
搜集汇总
数据集介绍

构建方式
FinancialDatasets数据集的构建基于广泛的金融领域信息收集,涵盖了企业工商信息、金融讯息新闻、专栏资讯、投资机构信息及投资事件等多个方面。数据来源包括公开的金融新闻、企业注册信息以及专业金融资讯平台。通过系统化的数据采集和整理,确保了数据的全面性和准确性。每类数据均经过严格的清洗和标注,以满足自然语言处理(NLP)研究的需求。
特点
该数据集的显著特点在于其多样性和广泛性,不仅包含了企业工商信息和投资机构信息,还涵盖了大量的金融新闻和专栏资讯。此外,数据集的规模庞大,样本量丰富,能够支持多种NLP任务的研究,如实体识别、文本摘要和序列分类等。数据集的结构化设计使得数据易于访问和处理,适合于学术研究和工业应用。
使用方法
使用FinancialDatasets数据集时,用户可以通过提供的下载链接获取所需的数据子集。数据以Excel格式提供,便于导入和处理。推荐的研究方向包括词嵌入、实体识别、无监督聚类和企业行业分类等。用户可以根据具体的研究需求,选择合适的数据子集进行分析和模型训练。此外,数据集还提供了API接口服务,方便用户进行更高级的数据访问和处理。
背景与挑战
背景概述
FinancialDatasets是由SmoothNLP团队创建的金融文本数据集,旨在为自然语言处理(NLP)研究提供丰富的金融领域数据。该数据集涵盖了企业工商信息、金融讯息新闻、专栏资讯、投资机构信息、投资事件以及36氪新闻等多个类别,总计包含数百万条记录。主要研究人员和机构通过收集和整理这些数据,旨在解决金融领域中的文本分析、实体识别、行业分类等核心问题。该数据集的创建不仅丰富了金融NLP的研究资源,还为相关领域的学术研究和实际应用提供了坚实的基础。
当前挑战
尽管FinancialDatasets为金融NLP研究提供了丰富的数据资源,但在构建和应用过程中仍面临诸多挑战。首先,数据的质量和准确性是关键问题,尤其是在处理大量非结构化文本时,如何确保信息的准确性和一致性是一个重大挑战。其次,数据的隐私和安全问题也不容忽视,特别是在涉及企业工商信息和投资事件等敏感数据时,如何保护数据隐私和遵守相关法律法规是必须解决的问题。此外,数据集的多样性和覆盖范围也是一个挑战,如何在有限的资源下尽可能覆盖更多的金融领域和数据类型,以满足不同研究需求,是该数据集未来发展的重要方向。
常用场景
经典使用场景
在金融领域,FinancialDatasets数据集的经典使用场景主要集中在自然语言处理(NLP)任务中。例如,通过该数据集中的企业工商信息和金融讯息新闻,研究者可以训练模型进行实体识别(NER),从而自动提取公司名称、法人代表等关键信息。此外,数据集中的专栏资讯和36氪新闻为文本摘要和序列分类提供了丰富的语料,有助于提升金融文本处理的准确性和效率。
实际应用
在实际应用中,FinancialDatasets数据集被广泛用于金融风险评估、投资决策支持系统以及市场分析工具中。例如,金融机构可以利用数据集中的投资事件信息,分析不同投资轮次和金额的趋势,从而优化投资策略。同时,企业可以通过分析工商信息和金融新闻,及时了解市场动态和竞争对手情况,提升决策的科学性和前瞻性。
衍生相关工作
基于FinancialDatasets数据集,研究者们开展了一系列相关工作。例如,有研究利用该数据集中的企业描述信息进行竞品聚类,提出了新的企业关系网络构建方法。此外,还有研究者基于数据集中的金融新闻,开发了新的文本摘要模型,显著提升了金融新闻摘要的准确性和可读性。这些衍生工作不仅丰富了金融NLP的研究内容,也为实际应用提供了新的技术支持。
以上内容由遇见数据集搜集并总结生成



