five

StephanAkkerman/financial-tweets

收藏
Hugging Face2023-12-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/StephanAkkerman/financial-tweets
下载链接
链接失效反馈
官方服务:
资源简介:
Financial Tweets数据集是一个包含来自Twitter的金融相关推文的综合集合,涵盖了加密货币、股票和外汇等金融市场的讨论。数据集中的每条推文都包含了时间戳、推文文本、推文URL、推文类型、提及的股票代码及其价格和价格变化等信息。该数据集适用于情感分析和市场趋势预测等任务。

Financial Tweets数据集是一个包含来自Twitter的金融相关推文的综合集合,涵盖了加密货币、股票和外汇等金融市场的讨论。数据集中的每条推文都包含了时间戳、推文文本、推文URL、推文类型、提及的股票代码及其价格和价格变化等信息。该数据集适用于情感分析和市场趋势预测等任务。
提供机构:
StephanAkkerman
原始信息汇总

Financial Tweets 数据集

概述

Financial Tweets 数据集是一个全面的推文集合,来源于追踪Twitter上金融影响者的Discord机器人。该数据集包含多种信息,如推文内容和推文发布时提及的股票价格。此数据集可用于情感分析和掩码语言模型(MLM)等任务。

该数据集包括以下三个子数据集:

  • Crypto
  • Stocks(包括外汇)
  • Other(无现金标签的推文)

数据描述

该数据集包含与金融市场、股票和经济讨论相关的推文。

数据字段

数据字段如下:

  • timestamp:推文发送时间。
  • tweet_text:推文的所有文本,包括引用的推文(以>前缀标识)。
  • tweet_url:推文的URL。
  • tweet_type:推文类型,可以是推文、转发或引用推文。
  • price_of_ticker:提及的股票价格(美元)。
  • change_of_ticker:股票24小时价格变化(美元)。
  • tickers_mentioned:推文中提及的所有股票代码。
  • category:推文类别,后缀_images表示推文包含图片。

用途

该数据集适用于训练和评估专注于理解市场趋势和投资者情绪的机器学习模型。它可用于学术研究、金融市场分析以及开发金融机构的AI工具。

许可证

该数据集基于MIT许可证发布,遵守原始数据集的许可条款。

搜集汇总
数据集介绍
main_image_url
构建方式
本数据集是由StephanAkkerman的Discord机器人收集的金融领域推文集合,旨在跟踪Twitter上金融影响者的动态。数据涵盖推文文本、发布时的股票价格等信息,为机器学习模型提供了丰富的训练素材。构建过程中,数据集整合了三个子集,分别针对加密货币、股票及外汇市场,以及不含金钱标签的其他推文,形成了全面的金融推文资源库。
特点
Financial Tweets数据集的特点在于其内容的多样性和信息的丰富性。不仅包含了推文的基本信息,如时间戳、推文文本、URL、类型等,还提供了相关的股票价格及其24小时变化情况,以及提及的股票代码。此外,数据集按照不同的金融类别进行了划分,有助于针对特定领域的深入分析。
使用方法
使用该数据集时,研究者可以根据具体需求进行筛选,如按时间、类别、股票代码等维度。数据集适合用于训练和评估针对情感分析、市场趋势理解、投资者情绪分析等任务的机器学习模型。此外,该数据集同样适用于学术研究、金融市场分析和金融机构的AI工具开发。
背景与挑战
背景概述
在金融科技领域,社交媒体数据成为分析市场动态和投资者情绪的重要资源。StephanAkkerman/financial-tweets数据集,创建于近年,由StephanAkkerman及其团队通过追踪金融领域影响者的Twitter信息收集而成。该数据集涵盖加密货币、股票市场等多个金融子领域的推文,包含时间戳、推文内容、价格信息等字段,适用于情绪分析、语言模型训练等任务。其FinTwitBERT模型便是基于此数据集训练的,对金融市场文本分析研究贡献显著。
当前挑战
数据集构建过程中,研究团队面临了多方面的挑战。首先,金融推文的分类和标注需准确反映市场动态,这对标注质量和数据清洗提出了高要求。其次,金融市场的快速变化导致数据迅速过时,持续更新数据集成为必要。此外,涉及金融数据的隐私和合规问题,确保数据使用的合法性和安全性,也是数据集构建的一大挑战。在研究领域,如何提高模型对市场突发事件的预测准确度,以及如何从海量的金融文本中提取有价值的信息,仍是当前研究的热点问题。
常用场景
经典使用场景
在金融科技研究领域,StephanAkkerman/financial-tweets数据集以其独特的金融领域推文信息,成为文本分类任务的重要资源。该数据集涵盖了金融影响者的推文,包含了推文文本、相关股票价格以及价格变动等详细信息,为机器学习模型提供了丰富的训练素材,特别是在进行情感分析以及掩码语言模型训练时,其价值尤为显著。
解决学术问题
该数据集解决了金融市场中投资者情绪分析这一关键学术问题。通过对推文中的情感倾向进行精确分类,研究人员能够深入理解市场动态和投资者心理,这对于股票市场预测、风险控制以及投资策略的制定具有重要的研究意义和实际影响。
衍生相关工作
基于该数据集,学术界和工业界已衍生出一系列相关工作,如FinTwitBERT模型,它通过融合该数据集的特点,进一步提升了金融领域文本的语义理解能力。这些相关工作推动了金融科技的发展,为金融市场分析提供了新的视角和方法论。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作