five

crypto-market-sentiment-observations

收藏
Hugging Face2026-02-09 更新2026-02-10 收录
下载链接:
https://huggingface.co/datasets/Instrumetriq/crypto-market-sentiment-observations
下载链接
链接失效反馈
官方服务:
资源简介:
Instrumetriq 加密货币市场活动与情感背景数据集提供了270多种加密货币资产的时间对齐观测快照,旨在为市场结构、流动性和关注动态提供背景。数据集包含每周日快照,每份快照记录了同步的市场和情感观测数据。当前版本包含8个周样本(2025-12-21至2026-02-08)。数据来源包括通过Binance公共REST API获取的现货市场数据(中间价、买卖价差、流动性百分位数,每10秒采样一次)和来自X(Twitter)的社交情感数据(使用基于DistilBERT的双模型情感系统进行分类和置信度校准,仅以聚合形式提供)。数据集分为三个层级(Explorer、Analyst、Researcher),每个层级提供不同深度的列信息。文件结构按日期组织,提供Parquet和CSV格式。数据集适用于市场结构研究、行为和情感分析、流动性和执行上下文研究以及学术研究。数据集仅包含观测数据,不包含个人数据或原始社交媒体帖子,且不提供交易建议或预测。
创建时间:
2026-02-07
原始信息汇总

Instrumetriq — Crypto Market Activity & Sentiment Context Dataset 数据集概述

数据集基本信息

  • 数据集名称:Instrumetriq — Crypto Market Activity & Sentiment Context Dataset
  • 数据集主页:https://instrumetriq.com
  • 代码仓库:https://github.com/SiCkGFX/instrumetriq-public
  • 交互式演示:https://colab.research.google.com/github/SiCkGFX/instrumetriq-public/blob/main/samples/Instrumetriq_Dataset_Demo_Colab.ipynb
  • 归档发布(DOI):https://doi.org/10.5281/zenodo.18508636
  • 语言:英语
  • 许可证:custom-split
  • 许可证链接:LICENSE.md
  • 标签:sentiment-analysis, cryptocurrency, time-series, finance, market-microstructure, bitcoin, ethereum, crypto, twitter, observational-data

数据集描述

该数据集提供来自Instrumetriq持续监测管道的每周日快照。每个快照捕获了270多种加密资产的同步市场和情绪观察数据。该存储库目前包含8个每周样本(2025-12-21至2026-02-08)。

数据收集

  • 现货市场数据:通过公共REST API从Binance获取,包括中间价格、买卖价差、流动性百分位数,以10秒间隔采样,并在每个观察窗口内聚合。
  • 社交情绪数据:源自X(Twitter),帖子持续收集并使用基于双模型DistilBERT的情绪系统进行置信度校准分类,情绪仅以聚合形式(每个窗口的计数和平均值)公开,不包含原始帖子、用户名或个人身份信息。
  • 观察结构:每项资产以约2小时的滚动周期(约120–130分钟)进行监测,每个资产每个周期对应一行观察数据,所有层级每天总计约2,500次观察

数据集层级

所有层级包含相同的观察数据(相同的行,相同的时间戳),仅列深度不同。

层级1 — Explorer

  • 19个扁平列(Parquet + CSV格式)
  • 聚合的情绪计数和平均值
  • 现货价格、价差、流动性和质量分数
  • 最适合:仪表板、一般分析、轻量级检查

层级2 — Analyst

  • 8个顶级列,包含嵌套结构
  • 在层级1基础上扩展了详细的情绪聚合、作者统计数据和参与度指标
  • 最适合:行为分析、横截面研究

层级3 — Researcher

  • 12个顶级列,包含深度嵌套结构
  • 在层级2基础上扩展了每个观察窗口700多个现货价格样本(10秒分辨率)
  • 多窗口情绪、诊断和期货衍生背景
  • 最适合:研究、验证、微观结构分析

注意:高频(10秒)现货价格样本仅在层级3中可用。

文件结构

每周数据存储在按日期命名的文件夹中:

week_YYYY-MM-DD/
  YYYY-MM-DD_tier1.parquet
  YYYY-MM-DD_tier1.csv
  YYYY-MM-DD_tier2.parquet
  YYYY-MM-DD_tier3.parquet

层级2和层级3由于嵌套结构仅提供Parquet格式。模式文档位于schema_documentation/

预期用途

  • 市场结构研究
  • 行为和情绪分析
  • 流动性和执行背景研究
  • 探索性和描述性分析
  • 学术研究和可重复性

限制与伦理

  • 仅观测数据 — 不适合回测交易策略或生成信号
  • 不包含个人社交媒体帖子或个人数据
  • 所有情绪数据均为聚合和匿名化处理
  • 仅覆盖X(Twitter) — 不包含其他社交平台
  • 无预测、无交易建议、无隐含因果关系

引用

如果研究中使用此数据集,请引用:

@dataset{instrumetriq_2026,
  author    = {Instrumetriq},
  title     = {Instrumetriq Crypto Market and Social Sentiment Dataset},
  year      = {2026},
  publisher = {Zenodo},
  doi       = {10.5281/zenodo.18508636},
  url       = {https://doi.org/10.5281/zenodo.18508636}
}

访问与订阅

免费每周样本可在此存储库和GitHub(https://github.com/SiCkGFX/instrumetriq-public)获取。所有层级的完整持续访问可通过订阅在https://instrumetriq.com/access获取。

搜集汇总
数据集介绍
main_image_url
构建方式
在加密货币市场与社交媒体情感分析的研究领域,数据集的构建需兼顾时效性与结构化深度。本数据集通过系统化的观测流程,每周日采集超过270种加密资产的时间对齐快照。市场数据源自币安公开API,以10秒间隔采样并聚合;社交媒体情感数据则通过持续抓取X平台推文,并运用基于DistilBERT的双模型情感分类系统进行置信度校准后,以聚合形式呈现。每个资产约以2小时为滚动周期生成观测行,每日总计约2500条观测记录,确保了数据在时间维度上的连续性与一致性。
使用方法
为支持金融市场结构与行为情感的学术探索,数据集以按周组织的文件夹形式提供,内含Parquet与CSV格式文件。研究者可根据具体目标选择相应层级:初步探索可使用Tier 1的CSV或Parquet文件;涉及复杂情感指标的分析建议采用Tier 2的Parquet格式以利用其嵌套结构;而进行高频价格分析或市场微观结构验证时,则需调用Tier 3的Parquet文件获取详细样本。数据集明确限用于观察性研究,如市场结构分析、流动性研究及描述性统计,不适用于交易策略回测或信号生成。
背景与挑战
背景概述
在加密货币市场日益复杂且波动剧烈的背景下,理解市场微观结构与社交情绪之间的动态关联成为金融研究的前沿课题。Instrumetriq加密货币市场活动与情绪背景数据集应运而生,由Instrumetriq机构于2026年创建并发布,旨在通过时间对齐的观测快照,捕捉超过270种加密资产的现货市场数据与X平台社交情绪。该数据集的核心研究问题聚焦于揭示市场流动性、注意力动态与情绪波动之间的上下文关系,为市场结构研究、行为金融学及流动性分析提供了高质量、可复现的实证基础,推动了加密货币领域从定性描述向定量观测的范式转变。
当前挑战
该数据集致力于解决加密货币市场中情绪分析与市场微观结构整合的复杂挑战,其核心难题在于如何精准量化社交情绪对高频交易与流动性变化的瞬时影响,并克服市场噪音与情绪信号之间的混淆。在构建过程中,研究团队面临多重技术障碍:一是需设计稳健的分布式情感分类系统,基于DistilBERT模型并辅以置信度校准,以处理社交媒体文本的模糊性与多样性;二是实现多源异构数据的时间同步,将10秒级精度的现货市场数据与滚动窗口内的情绪聚合指标对齐;三是确保数据隐私与伦理合规,在提供深度嵌套结构的同时,完全匿名化原始社交帖子,避免个人信息泄露。
常用场景
经典使用场景
在加密货币市场分析领域,该数据集通过时间对齐的市场活动与社交情绪观测,为研究市场微观结构提供了经典场景。学者们利用其涵盖270多种资产的周度快照,结合高频价格数据与聚合情绪指标,深入探索市场流动性、价差动态以及投资者注意力分配之间的关联。这种同步观测框架使得研究人员能够在统一的时序背景下,检验市场效率假说或行为金融理论,尤其适用于分析极端波动期间情绪与价格形成的耦合机制。
解决学术问题
该数据集有效解决了加密货币研究中数据碎片化与验证困难的核心问题。通过提供标准化、可复现的观测快照,它支持对市场微观结构理论进行实证检验,例如流动性供给机制、信息不对称对价差的影响,以及社交情绪在资产定价中的角色。其多层数据结构允许从宏观描述到高频分析的递进研究,为学术界建立可靠的基准事实、推动计算金融与行为经济学的交叉融合提供了关键基础设施。
实际应用
在实际应用中,该数据集为金融机构与数据服务商提供了市场监控与风险管理的参考框架。从业者可借助其聚合情绪指标与流动性度量,评估市场整体氛围与交易环境质量,辅助合规报告与市场透明度分析。此外,其嵌套数据结构支持开发定制化仪表板,用于可视化多资产比较或异常检测,尽管明确排除了交易建议功能,但仍为行业提供了宝贵的观测性上下文以优化运营决策。
数据集最近研究
最新研究方向
在加密货币市场分析领域,随着数字资产与社交媒体情绪的关联性日益凸显,该数据集凭借其时间对齐的市场活动与社交情感观测快照,为前沿研究提供了关键支撑。当前研究聚焦于利用其高粒度的时间序列数据,探索市场微观结构中的流动性动态与社交情感传播的耦合机制,特别是在极端市场事件期间,情感指标的预警作用成为热点议题。结合嵌套数据结构与高频价格样本,学者们正深入验证情感共识对资产定价效率的影响,推动行为金融学在加密市场的实证发展,这些工作不仅深化了对市场注意力动力学的理解,也为风险管理和监管科技提供了实证基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作