five

x_dataset_206

收藏
Hugging Face2025-07-24 更新2025-07-25 收录
下载链接:
https://huggingface.co/datasets/intensity809/x_dataset_206
下载链接
链接失效反馈
官方服务:
资源简介:
Bittensor Subnet 13 X(Twitter)数据集是Bittensor Subnet 13去中心化网络的一部分,包含来自X(前Twitter)的实时更新的预处理推文数据。适用于多种机器学习任务,如情感分析、趋势检测、内容分析和用户行为建模等。数据集主要是英文的,但也包含多语言数据。数据集的每个实例代表一条推文,包含内容、标签、话题标签、发布日期、编码后的用户名和URL等字段。

Bittensor Subnet 13 X(Twitter)数据集是Bittensor Subnet 13去中心化网络的一部分,包含来自X(前Twitter)的实时更新的预处理推文数据。适用于多种机器学习任务,如情感分析、趋势检测、内容分析和用户行为建模等。数据集主要是英文的,但也包含多语言数据。数据集的每个实例代表一条推文,包含内容、标签、话题标签、发布日期、编码后的用户名和URL等字段。
创建时间:
2025-07-15
原始信息汇总

数据集概述:Bittensor Subnet 13 X (Twitter) Dataset

基本信息

  • 许可证: MIT
  • 多语言支持: 多语言(主要为英语)
  • 数据来源: 原始数据(X/Twitter公开推文)
  • 任务类型:
    • 文本分类
    • 标记分类
    • 问答系统
    • 文本摘要
    • 文本生成
    • 情感分析
    • 主题分类
    • 命名实体识别
    • 语言建模
    • 文本评分
    • 多类分类
    • 多标签分类
    • 抽取式问答
    • 新闻文章摘要

数据集描述

  • 存储库: intensity809/x_dataset_206
  • 子网: Bittensor Subnet 13
  • 矿工热键: 5HghmK98GFaAUQruKDKUAcNdjtvGAPsNbyBduznmcJRj2Rfj
  • 数据合规协议: 遵循Macrocosmos Miner Data Compliance Policy

数据集摘要

  • 内容: 来自X(原Twitter)的预处理数据,持续更新
  • 用途: 支持社交媒体动态分析和机器学习任务开发
  • 示例应用:
    • 情感分析
    • 趋势检测
    • 内容分析
    • 用户行为建模

数据结构

数据实例

  • 每条实例代表一条推文

数据字段

  • text (字符串): 推文主要内容
  • label (字符串): 推文的情感或主题类别
  • tweet_hashtags (列表): 推文中使用的标签列表(可能为空)
  • datetime (字符串): 推文发布日期
  • username_encoded (字符串): 编码后的用户名(保护隐私)
  • url_encoded (字符串): 编码后的URL(可能为空)

数据分割

  • 持续更新,无固定分割,建议用户根据时间戳自定义分割

数据集创建

  • 来源: X(Twitter)公开推文,遵循平台服务条款和API使用指南
  • 隐私保护: 用户名和URL均经过编码处理,不含敏感信息

使用注意事项

  • 社会影响与偏见: 数据可能存在X平台固有的内容和人口统计偏见
  • 局限性:
    • 数据质量因去中心化采集和处理可能参差不齐
    • 可能包含社交媒体典型的噪声/垃圾内容
    • 存在实时采集导致的时间偏差
    • 仅含公开推文,不含私密账户或私信
    • 并非所有推文都含标签或URL

附加信息

  • 许可证: MIT(同时受X使用条款约束)

  • 引用格式: bibtex @misc{intensity8092025datauniversex_dataset_206, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={intensity809}, year={2025}, url={https://huggingface.co/datasets/intensity809/x_dataset_206}, }

  • 贡献: 可通过Bittensor Subnet 13治理机制或联系矿工反馈问题

数据集统计(截至2025-07-24)

  • 总实例数: 400
  • 日期范围: 2025-07-08T00:00:00Z 至 2025-07-19T00:00:00Z
  • 最后更新时间: 2025-07-24T15:30:16Z
  • 标签分布:
    • 含标签推文: 100%
    • 无标签推文: 0%

热门标签TOP10

排名 标签 出现次数 占比
1 #bitcoin 35 8.75%
2 #bitcoiner 23 5.75%
3 #btc 19 4.75%
4 #ukraine 19 4.75%
5 #swapnox 19 4.75%
6 #trump 15 3.75%
7 #israel 15 3.75%
8 #crypto 13 3.25%
9 #bitcoinnews 10 2.50%
10 #traitors 10 2.50%

更新历史

日期 新增实例 累计实例
2025-07-22 100 100
2025-07-23 100 200
2025-07-23 100 300
2025-07-24 100 400
搜集汇总
数据集介绍
main_image_url
构建方式
在社交媒体分析领域,x_dataset_206数据集通过Bittensor Subnet 13去中心化网络构建,采用实时更新的机制采集X平台(原Twitter)的公开推文。数据采集严格遵循平台的服务条款和API使用规范,所有用户名和URL均经过编码处理以保护用户隐私。该数据集通过分布式矿工节点持续更新,确保了数据的时效性和多样性,同时采用标准化字段结构存储文本内容、情感标签、话题标签等关键信息。
特点
作为多任务社交媒体的分析数据集,x_dataset_206的突出特点体现在其动态更新的数据流结构和多语言兼容性上。数据集涵盖文本分类、实体识别、问答系统等七类核心任务,包含推文正文、情感标签、时间戳等结构化字段,其中话题标签覆盖率高达100%。数据分布呈现典型的长尾特征,前十大标签如#bitcoin和#ukraine占比达42.5%,为研究社交媒体热点传播提供了天然样本。去中心化的采集方式虽然可能引入数据噪声,但有效避免了传统集中式采集的单一视角局限。
使用方法
研究人员可通过HuggingFace平台直接加载该数据集,建议首先依据时间戳划分训练集与测试集以应对其流式更新特性。对于情感分析任务,可利用label字段进行监督学习;话题检测则可结合tweet_hashtags实现多标签分类。使用时应特别注意数据潜在的社会偏见和时效性限制,可通过对比不同时间窗口的数据分布来验证模型鲁棒性。该数据集兼容Transformers库,支持端到端的预训练模型微调,但需遵守MIT许可和X平台附加条款。
背景与挑战
背景概述
x_dataset_206数据集由Bittensor Subnet 13去中心化网络于2025年构建,旨在提供来自X(原Twitter)平台的实时预处理数据。该数据集由网络矿工持续更新,服务于文本分类、实体识别、问答系统及文本生成等多种自然语言处理任务。作为Macrocosm数据宇宙项目的一部分,其设计初衷在于支持社交媒体的动态分析与创新应用开发,尤其在加密货币和时事话题领域展现出显著影响力。数据集采用多语言架构,主要基于英文内容,同时兼顾其他语种,反映了去中心化数据采集的典型特征。
当前挑战
该数据集面临的核心挑战体现在两个方面:领域问题层面,社交媒体的动态性与噪声特性为情感分析、趋势检测等任务带来数据稀疏性和标注一致性难题,且平台固有的内容偏见可能影响模型泛化能力;构建过程层面,去中心化采集机制导致数据质量波动,实时更新需求与隐私保护要求形成张力,而哈希标签和URL的缺失率进一步增加了特征提取的复杂度。此外,严格遵守Twitter服务条款的同时确保数据代表性,构成了持续性的合规挑战。
常用场景
经典使用场景
在社交媒体分析领域,x_dataset_206数据集以其实时更新的特性,成为研究推特平台动态的宝贵资源。该数据集广泛应用于情感分析、话题分类和用户行为建模等任务,尤其适合捕捉加密货币和社会热点事件的舆论风向。通过分析推文内容、标签和时间戳,研究者能够深入理解特定话题的传播模式和公众情绪演变。
实际应用
商业机构利用该数据集进行品牌舆情监控和市场趋势预测,特别是加密货币领域的实时情绪分析。新闻机构借助话题检测功能追踪突发事件的社交媒体传播路径。政府部门则通过分析公众情绪变化,优化公共政策传播策略。数据集中的时间序列特性,使得建立社会事件影响预测模型成为可能。
衍生相关工作
基于该数据集已产生多项重要研究成果,包括基于时空特征的推特热点预测算法、融合多模态信息的情绪分析框架等。在去中心化数据采集方面,衍生出新型的分布式数据质量控制方法。部分研究团队利用该数据集构建了面向特定领域的语言模型,如加密货币舆情分析专用BERT变体。这些工作推动了社交媒体挖掘与区块链技术的交叉创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作