ElKulako/stocktwits-emoji
收藏Hugging Face2023-03-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ElKulako/stocktwits-emoji
下载链接
链接失效反馈官方服务:
资源简介:
---
license: afl-3.0
---
This data set contains StockTwits posts from 01.11.2021 to 30.06.2022 for Bitcoin (BTC.X), Ethereum (ETH.X) and Shiba Inu (SHIB.X).
The full set contains 124,503 posts, including 72,247 bullish, 38,249 neutral and 14,007 bearish posts.
The training set ranges from 01.11.2021 to 30.04.2022, consists of 91,758 observations, including 57,932 bullish, 26,516 neutral, and 7310 bearish posts.
The validation set ranges from 01.05.2022 to 15.06.2022 and contains 4084 bearish, 7534 neutral, and 9143 bullish posts, amounting to 20,761 examples.
The test set ranges from 16.06.2022 to 30.06.2022 and consists of 5172 bullish, 4199 neutral, and 2613 bearish posts, having 11,984 observations in total.
The validation and test sets contain all StockTwits posts, with at least one emoji, from their respective periods, while the training set is further limited by only including posts that have possibly influential bullish or bearish emojis.
The training SVM dataset contains balanced samples used for training an SVM sentiment classifier.
The bearish sets have 20K observations per class (pos is bearish, while neg is not bearish, so bullish and neutral). The bullish sets have 40K observations per class (pos is bullish, while neg is not bullish, so bearish and neutral).
提供机构:
ElKulako
原始信息汇总
数据集概述
数据集内容
- 时间范围:2021年11月1日至2022年6月30日
- 包含资产:比特币(BTC.X)、以太坊(ETH.X)、柴犬币(SHIB.X)
- 总帖子数:124,503条
- 情绪分类:
- 看涨(Bullish):72,247条
- 中性(Neutral):38,249条
- 看跌(Bearish):14,007条
- 情绪分类:
数据集划分
- 训练集:
- 时间范围:2021年11月1日至2022年4月30日
- 帖子数:91,758条
- 看涨:57,932条
- 中性:26,516条
- 看跌:7,310条
- 验证集:
- 时间范围:2022年5月1日至2022年6月15日
- 帖子数:20,761条
- 看跌:4,084条
- 中性:7,534条
- 看涨:9,143条
- 测试集:
- 时间范围:2022年6月16日至2022年6月30日
- 帖子数:11,984条
- 看涨:5,172条
- 中性:4,199条
- 看跌:2,613条
特殊说明
- 训练集限制:仅包含可能具有影响力的看涨或看跌表情符号的帖子。
- SVM训练数据集:
- 看跌数据集:每类20,000条观察(正类为看跌,负类为非看跌,即看涨和中性)
- 看涨数据集:每类40,000条观察(正类为看涨,负类为非看涨,即看跌和中性)
许可证
- 许可证类型:afl-3.0
搜集汇总
数据集介绍

构建方式
该数据集源自社交投资平台StockTwits,聚焦于加密货币领域,涵盖比特币(BTC.X)、以太坊(ETH.X)和柴犬币(SHIB.X)在2021年11月1日至2022年6月30日期间发布的帖子。原始数据包含124,503条帖子,并依据情感倾向划分为看涨、中性和看跌三类。数据集被系统性地分割为训练集、验证集和测试集,其中训练集覆盖2021年11月1日至2022年4月30日,包含91,758条观测样本;验证集与测试集则分别对应后续阶段,并确保验证集与测试集中的每条帖子均包含至少一个表情符号。训练集进一步过滤,仅保留可能具有影响力看涨或看跌表情符号的帖子,以提升情感分类的针对性。此外,还构建了用于支持向量机(SVM)训练的平衡子集,其中看跌类别包含每类20,000条观测,看涨类别包含每类40,000条观测,以确保模型训练的均衡性。
使用方法
该数据集适用于金融情感分析领域的模型训练与评估,尤其是针对加密货币市场情绪的研究。用户可直接使用预划分的训练集、验证集和测试集进行监督学习任务,如训练基于文本和表情符号的深度学习模型。对于需要平衡样本的场景,可优先采用提供的SVM训练子集,该子集已按看涨和看跌类别进行均衡采样。数据集以常见格式存储,兼容HuggingFace的datasets库,便于快速加载和预处理。研究人员可基于此数据集探索表情符号在金融文本情感分类中的增强作用,或将其作为基准数据集对比不同情感分析模型的性能。
背景与挑战
背景概述
在金融科技与自然语言处理交叉领域,情感分析已成为预测加密货币市场波动的重要工具。ElKulako/stocktwits-emoji数据集由研究团队于2023年创建,发表于IEEE会议论文(DOI: 10.1109/ACCESS.2023.3298945),聚焦于StockTwits社交平台上的加密货币讨论帖。该数据集覆盖2021年11月至2022年6月期间比特币、以太坊和柴犬币的12万余条帖子,通过人工标注将情感倾向分为看涨、中性和看跌三类,旨在探索社交媒体中表情符号对市场情绪判别的辅助作用。其创新性在于将非文本符号纳入情感分析框架,为理解散户投资者行为提供了独特的量化视角,对金融舆情监测与算法交易研究具有重要推动价值。
当前挑战
该数据集面临的核心挑战在于多维度复杂性。其一,加密货币市场的高波动性导致情感标签随时间动态演变,训练集(2021.11-2022.04)与测试集(2022.06)间存在显著概念漂移,模型泛化能力受限。其二,表情符号的情感歧义性构成标注难题,同一符号在不同上下文可能传递相反情绪,例如火焰表情既可能代表牛市狂热也可能暗示市场崩盘。其三,数据构建过程中,训练集通过筛选“有影响力的看涨/看跌表情符号”引入选择性偏差,而验证集与测试集保留所有含表情帖子的策略导致分布不一致,削弱了跨时间段的评估可靠性。此外,类别不平衡问题突出(看涨帖占58%,看跌帖仅11%),需采用重采样或代价敏感学习等策略缓解。
常用场景
经典使用场景
该数据集汇集了2021年11月至2022年6月期间,来自StockTwits平台关于比特币、以太坊和柴犬币的逾十二万条帖子,并依据表情符号对市场情绪进行了细致标注。在金融科技与自然语言处理的交叉领域中,它成为训练和评估情感分析模型的经典基准,尤其适用于捕捉加密货币社区中由表情符号传递的非结构化情绪信号,为量化投资者情绪提供了独特的数据支撑。
解决学术问题
这一数据集有效解决了传统金融文本情感分析中语料匮乏和标注粒度粗糙的难题。通过引入表情符号作为情感代理,它能够更精准地识别牛市、熊市和中性观点,从而克服了单纯依赖文字分析时因网络用语和隐喻造成的歧义。其分层采样策略和平衡的训练集设计,为构建鲁棒的分类器奠定了基础,推动了金融市场情绪预测研究的精细化发展。
实际应用
在实际应用中,该数据集可用于开发面向加密货币交易者的实时情绪监控工具,辅助量化投资策略的制定。金融机构和算法交易团队能够借助基于此数据训练的模型,从海量社交媒体帖子中快速提取市场情绪倾向,从而优化仓位管理和风险控制。此外,它也为社交媒体舆情分析平台提供了验证情感标签有效性的参考标准。
数据集最近研究
最新研究方向
在金融科技与自然语言处理的交叉领域,情感分析已成为预测加密货币市场波动的关键工具。ElKulako/stocktwits-emoji数据集聚焦于2021年11月至2022年6月期间比特币、以太坊和柴犬币的StockTwits社交帖子,通过整合表情符号这一非结构化情感信号,开辟了加密货币市场情绪量化的新路径。该数据集不仅标注了124,503条帖子的看涨、中性及看跌倾向,还创新性地将训练集限定为包含潜在影响力表情符号的样本,并构建了支持向量机情感分类器的平衡训练子集。这一设计精准回应了当前研究对社交媒体微观情绪捕捉的迫切需求,尤其为探索表情符号在金融叙事中的语义权重提供了基准资源。其分阶段的时间划分与类别平衡策略,直接服务于高频交易场景下的情感动态建模,对理解散户投资者行为与资产价格异动之间的传导机制具有重要启示意义。
以上内容由遇见数据集搜集并总结生成



