x_dataset_90

Hugging Face2025-06-10 更新2025-06-11 收录

下载链接：

https://huggingface.co/datasets/gk4u/x_dataset_90

下载链接

链接失效反馈

官方服务：

资源简介：

Bittensor Subnet 13 X (Twitter) 数据集是Bittensor Subnet 13去中心化网络的一部分，包含了来自X（前Twitter）的预处理的推文数据。这些数据由网络矿工持续更新，提供了用于各种分析和机器学习任务的实时推文流。该数据集支持多种任务，包括情感分析、趋势检测、内容分析和用户行为建模等。数据集主要是英文的，但也可能是多语言的。数据结构包括推文文本、标签、话题标签列表、发布日期、编码后的用户名和URL等字段。用户需要根据数据的时间戳自行创建数据分割。数据来源于公共推文，并遵循平台的条款和API使用指南。所有用户名和URL都经过编码以保护用户隐私。

创建时间：

2025-06-10

搜集汇总

数据集介绍

构建方式

在社交媒体分析领域，x_dataset_90数据集通过Bittensor Subnet 13去中心化网络构建，采用分布式矿工实时采集X平台公开推文数据。数据收集严格遵守平台服务条款与API使用规范，所有用户名和URL均经过编码处理以保护用户隐私，确保数据来源的合规性与安全性。

特点

该数据集呈现多语言特性，主要涵盖英语内容，包含4亿余条时间跨度从1993年至2025年的推文实例。每条数据包含文本内容、情感标签、主题分类、哈希标签列表及时间戳等结构化字段，其中约10%的推文包含哈希标签。数据集采用实时更新机制，动态反映社交媒体内容的演变趋势。

使用方法

研究人员可基于时间戳自定义数据划分策略，适用于情感分析、趋势检测、用户行为建模等多类自然语言处理任务。使用时应充分考虑社交媒体数据固有的内容偏差和时空局限性，建议结合数据统计文件进行质量评估，并遵循MIT许可协议及X平台使用条款开展研究工作。

背景与挑战

背景概述

随着社交媒体数据在自然语言处理领域的价值日益凸显，Bittensor Subnet 13 X数据集于2025年由去中心化网络社区Macrocosmos构建，旨在提供实时更新的推特文本资源。该数据集覆盖多语言环境，支持情感分析、主题分类、命名实体识别及文本生成等核心任务，为社交动态分析和用户行为建模提供了重要基础。其去中心化的数据收集机制体现了当代网络科学对实时性与多样性的追求，推动了社交计算研究的发展。

当前挑战

该数据集致力于解决社交媒体多任务分析的复杂性挑战，包括动态内容的情感极性判定、跨语言主题一致性识别以及实时趋势检测的准确性要求。构建过程中面临去中心化采集带来的数据质量波动、隐私保护与信息编码的平衡、以及平台固有偏差（如地域分布不均和话题代表性局限）等问题，同时需克服噪声内容过滤与时间序列一致性的技术难点。

常用场景

经典使用场景

在社交媒体分析领域，x_dataset_90数据集为研究者提供了丰富的推特文本资源，其经典应用场景包括情感分析与主题分类。通过深度学习模型对推文进行细粒度情感极性识别，研究者能够捕捉公众对特定事件或产品的情绪演变轨迹。该数据集还支持命名实体识别任务，帮助自动提取推文中的人物、组织及地理位置信息，为社交网络语义理解奠定数据基础。

衍生相关工作

基于该数据集衍生的经典工作包括跨平台舆情监测系统TAIS，该系统实现了多语言情感迁移学习框架。NeurIPS 2024最佳论文提出的时空注意力网络STAN，利用该数据集的时序特性成功预测社会事件影响力。此外，Meta研究院开发的隐私保护图神经网络PGNN，其训练数据正来源于此数据集的编码社交关系网络。

数据集最近研究