five

zeroshot/twitter-financial-news-topic

收藏
Hugging Face2024-02-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zeroshot/twitter-financial-news-topic
下载链接
链接失效反馈
官方服务:
资源简介:
Twitter Financial News数据集是一个包含金融相关推文的英文语料库,用于对金融相关推文进行主题分类。该数据集包含21,107个文档,标注了20个标签,涵盖了分析师更新、中央银行、公司产品新闻、国债、股息、收益、能源、金融、货币、一般新闻、黄金、IPO、法律、并购、宏观、市场、政治、人事变动、股票评论和股票走势等主题。数据通过Twitter API收集,支持多类别分类任务。数据集分为训练集和验证集,分别包含16,990和4,118个实例。

The Twitter Financial News Dataset is an English corpus of finance-related tweets, intended for topic classification of such financial tweets. This dataset comprises 21,107 documents annotated with 20 labels, covering topics including analyst updates, central banks, corporate product news, treasury bonds, dividends, earnings, energy, finance, currency, general news, gold, IPOs, legal matters, mergers and acquisitions, macroeconomics, markets, politics, executive changes, stock reviews, and stock trends. The data was collected via the Twitter API and supports multi-class classification tasks. The dataset is split into training and validation sets, containing 16,990 and 4,118 instances respectively.
提供机构:
zeroshot
原始信息汇总

数据集描述

数据集概述

Twitter Financial News 数据集是一个包含金融相关推文的英语数据集,用于对金融相关推文进行主题分类。

数据集内容

  1. 数据集包含 21,107 个文档,标注了 20 个标签: python topics = { "LABEL_0": "Analyst Update", "LABEL_1": "Fed | Central Banks", "LABEL_2": "Company | Product News", "LABEL_3": "Treasuries | Corporate Debt", "LABEL_4": "Dividend", "LABEL_5": "Earnings", "LABEL_6": "Energy | Oil", "LABEL_7": "Financials", "LABEL_8": "Currencies", "LABEL_9": "General News | Opinion", "LABEL_10": "Gold | Metals | Materials", "LABEL_11": "IPO", "LABEL_12": "Legal | Regulation", "LABEL_13": "M&A | Investments", "LABEL_14": "Macro", "LABEL_15": "Markets", "LABEL_16": "Politics", "LABEL_17": "Personnel Change", "LABEL_18": "Stock Commentary", "LABEL_19": "Stock Movement", }

数据收集

数据通过 Twitter API 收集。该数据集支持多类别分类任务。

数据分割

数据集分为训练集和验证集,具体统计如下:

数据集分割 实例数量
训练集 16,990
验证集 4,118

许可信息

Twitter Financial Dataset (topic) 版本 1.0.0 基于 MIT 许可证发布。

搜集汇总
数据集介绍
main_image_url
构建方式
Twitter Financial News数据集的构建,是通过Twitter API收集与金融相关的推文,并对其进行注释和分类,形成了一个包含21,107篇文档的语料库,每篇文档都被标注为20个主题类别中的一个。该数据集的构建旨在服务于金融领域文本分类任务,为机器学习模型提供训练和验证的资源。
特点
该数据集具有明显的金融新闻特色,覆盖了从分析师更新、美联储与中央银行政策,到公司产品新闻、股市动态等20个不同的金融主题。其独到的多类别标注使得该数据集在金融新闻话题分类任务中具有较高的参考价值。此外,数据集遵循MIT许可,保证了其使用的开放性与灵活性。
使用方法
使用Twitter Financial News数据集时,用户可依据数据集提供的训练集和验证集进行模型训练与评估。数据集的每个推文都被明确标注了对应的金融主题类别,便于模型学习和分类。在获得数据集后,用户需遵循MIT许可的规定,合法使用和分享数据集,以开展相关研究和应用开发。
背景与挑战
背景概述
在金融信息快速传递的当下,Twitter成为了金融新闻与市场动态的重要发布平台。Twitter Financial News数据集,创建于信息时代浪潮之中,由匿名创作者利用Twitter API收集整理而成。该数据集以英语为单一语种,包含21,107条与金融相关的推文,并细分为20个不同的主题类别,旨在为金融领域的文本分类研究提供标准化资源。该数据集不仅反映了金融市场的多样性,也为金融文本信息处理研究提供了有力支撑,对金融市场分析、投资决策等领域产生了积极影响。
当前挑战
尽管Twitter Financial News数据集为金融文本分类提供了丰富的资源,但在实际应用中仍面临诸多挑战。首先,金融领域专业术语的多样性和复杂性使得分类任务颇具难度。其次,推文语言的简洁性、非正式性及含有大量专业缩写和行话,为自动分类带来了挑战。此外,构建过程中,如何确保数据收集与标注的准确性、全面性,以及如何处理Twitter API的数据访问限制,也是不可忽视的难题。
常用场景
经典使用场景
在金融信息研究领域,zeroshot/twitter-financial-news-topic数据集的典型应用场景是对金融相关推特进行主题分类。该数据集的构建旨在训练机器学习模型,使其能够准确识别并归类金融新闻的多样化主题,如公司产品新闻、市场动态、政治影响等,从而提升金融信息处理的自动化和智能化水平。
实际应用
在实际应用中,zeroshot/twitter-financial-news-topic数据集被广泛用于金融行业,尤其是在市场监控、投资分析和风险管理等领域。金融机构可以利用基于该数据集训练的模型,对社交媒体上的金融新闻进行实时监控和分析,以快速响应市场变化。
衍生相关工作
该数据集催生了众多相关研究工作,如金融市场情绪分析、金融新闻影响力评估等。研究者基于此数据集开发了多种金融信息处理工具,为金融科技的发展提供了强有力的数据支撑和技术创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作