Financial News Dataset from Bloomberg and Reuters

github2024-05-14 更新2024-05-31 收录

下载链接：

https://github.com/philipperemy/financial-news-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

包含来自Bloomberg的450,341条新闻和来自Reuters的109,110条新闻。由于版权问题，这些数据集不再在线提供用于研究目的。数据集不再更新，因为几年前Bloomberg/Reuters限制了访问。

This dataset comprises 450,341 news articles from Bloomberg and 109,110 from Reuters. Due to copyright restrictions, these datasets are no longer available online for research purposes. The datasets are no longer updated as Bloomberg and Reuters restricted access several years ago.

创建时间：

2016-08-23

原始信息汇总

Financial News Dataset from Bloomberg and Reuters

数据集概述

来源: 包含来自Bloomberg的450,341条新闻和来自Reuters的109,110条新闻。
状态: 由于版权问题，该数据集不再在线提供用于研究目的，且不再更新。

数据集内容

Reuters: 109,110条新闻，例如：
- 标题: Pluspetrol says losing $2.4 mln/day in Peru protest
- 日期: Sat Oct 21, 2006
- 链接: http://www.reuters.com/article/2006/10/22/businesspro-oil-peru-pluspetrol-dc-idUSN2127888220061022
Bloomberg: 450,341条新闻，例如：
- 标题: Baoshans 3rd-Quarter Profit Gains on Steel Demand
- 作者: Janet Ong
- 日期: 2006-10-27
- 链接: http://www.bloomberg.com/news/2006-10-27/baoshan-s-3rd-quarter-profit-gains-on-steel-demand-update4-.html

引用信息

@misc{BloombergReutersDataset2015, author = {Philippe Remy, Xiao Ding}, title = {Financial News Dataset from Bloomberg and Reuters}, year = {2015}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/philipperemy/financial-news-dataset}}, }

搜集汇总

数据集介绍

构建方式

该数据集由来自彭博社和路透社的金融新闻组成，分别包含450,341条彭博社新闻和109,110条路透社新闻。这些新闻数据通过网络爬虫技术从两家媒体的官方网站上抓取，涵盖了多个金融领域的报道，包括公司业绩、市场动态、经济政策等。数据集的时间跨度较长，涵盖了多个年份的新闻报道，为研究者提供了丰富的历史数据资源。

特点

该数据集的主要特点在于其广泛的内容覆盖和多样化的金融新闻类型。新闻内容不仅包括公司公告、市场分析，还涉及宏观经济事件和行业动态，为研究金融市场、事件驱动分析等提供了多维度的数据支持。此外，数据集的规模较大，能够支持大规模的文本分析和自然语言处理任务。

使用方法

该数据集适用于多种自然语言处理和金融分析任务，如事件抽取、情感分析、市场预测等。研究者可以通过分析新闻文本中的关键词、事件结构和情感倾向，来预测金融市场走势或评估特定事件对市场的影响。使用时，建议结合相关的金融理论和模型，以提高分析的准确性和实用性。

背景与挑战

背景概述

金融新闻数据集由彭博社和路透社的新闻组成，包含了450,341条彭博社新闻和109,110条路透社新闻。该数据集首次在2014年由Ding等人提出，并在自然语言处理（NLP）领域中被广泛用于金融事件与股票价格波动预测的研究。该数据集的创建旨在通过结构化事件分析来预测股票价格的变动，对金融领域的研究具有重要意义。尽管由于版权问题，该数据集已不再公开提供，但其对金融新闻分析和市场预测的研究贡献不可忽视。

当前挑战

该数据集面临的主要挑战包括版权限制和数据更新停滞。由于彭博社和路透社的版权限制，数据集自几年前起不再更新，且无法公开获取，这限制了其在研究中的进一步应用。此外，数据集的构建过程中，如何从海量新闻中提取有用的金融事件信息，并确保这些信息的准确性和时效性，也是一大技术难题。这些挑战使得该数据集在当前的研究环境中面临较大的应用限制。

常用场景

经典使用场景

金融新闻数据集，源自彭博社和路透社，包含了450,341条彭博社新闻和109,110条路透社新闻，主要用于自然语言处理（NLP）领域的研究。该数据集的经典使用场景包括金融事件的结构化分析、新闻文本的情绪分析以及基于新闻内容的股市预测。通过分析这些新闻数据，研究者能够提取出关键的金融事件，进而预测市场趋势和股票价格的波动。

衍生相关工作

基于该数据集，许多经典工作得以展开，特别是在金融事件抽取和股市预测领域。例如，Ding等人（2014）首次使用该数据集进行股市预测，提出了基于结构化事件的预测模型。随后，Ding等人（2015）进一步扩展了这一研究，提出了更复杂的模型来提高预测精度。这些工作不仅推动了金融领域的研究进展，也为后续的相关研究提供了重要的参考和数据支持。

数据集最近研究