x_dataset_202507

Hugging Face2025-07-23 更新2025-07-24 收录

下载链接：

https://huggingface.co/datasets/goldentraversy07/x_dataset_202507

下载链接

链接失效反馈

官方服务：

资源简介：

Bittensor子网13 X（Twitter）数据集是Bittensor子网13去中心化网络的一部分，包含来自X（前Twitter）的预处理的推文数据。该数据集由网络矿工持续更新，为各种分析和机器学习任务提供实时推文流。数据集支持的任务包括情感分析、趋势检测、内容分析等。为了保护用户隐私，数据集中的用户名和URL已被编码。该数据集遵循MIT许可证发布，并在官方仓库中可用。数据主要使用英语，但由于去中心化的创建方式，也可能是多语言的。数据集没有固定的分割，用户需要根据数据的时间戳创建自己的分割。使用该数据集时，应注意潜在的偏见和局限性。

创建时间：

2025-07-14

原始信息汇总

Bittensor Subnet 13 X (Twitter) Dataset 概述

基本描述

许可证: MIT
多语言支持: 多语言
数据来源: 原始数据
任务类别: 文本分类、标记分类、问答、摘要、文本生成
任务ID: 情感分析、主题分类、命名实体识别、语言建模、文本评分、多类分类、多标签分类、抽取式问答、新闻文章摘要

数据集摘要

所属子网: Bittensor Subnet 13
数据内容: 包含来自X（前Twitter）的预处理数据，持续更新
数据用途: 支持多种分析和机器学习任务
主要语言: 英语（可能包含多语言内容）

数据集结构

数据实例

每条实例代表一条推文

数据字段

text (string): 推文主要内容
label (string): 推文的情感或主题类别
tweet_hashtags (list): 推文中使用的标签列表
datetime (string): 推文发布时间
username_encoded (string): 编码后的用户名
url_encoded (string): 编码后的URL

数据分割

持续更新，无固定分割

数据集创建

来源数据: 公开推文
隐私保护: 用户名和URL已编码处理

使用注意事项

社会影响与偏见: 可能存在X平台固有的偏见
局限性:
- 数据质量可能因去中心化收集而有所不同
- 可能包含噪音或无关内容
- 存在时间偏差
- 仅包含公开推文

附加信息

许可证信息: MIT许可证
引用信息: bibtex @misc{goldentraversy072025datauniversex_dataset_202507, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={goldentraversy07}, year={2025}, url={https://huggingface.co/datasets/goldentraversy07/x_dataset_202507}, }

数据集统计

总实例数: 21,773,386
日期范围: 2025-06-09T00:00:00Z 至 2025-07-23T00:00:00Z
最后更新时间: 2025-07-23T23:05:37Z
数据分布:
- 带标签的推文: 26.41%
- 无标签的推文: 73.59%

前10标签

排名	主题	总数	百分比
1	NULL	6,185,825	51.82%
2	#yahooニュース	13,446	0.11%
3	#sb19	11,796	0.10%
4	#bitcoin	11,712	0.10%
5	#ai	10,169	0.09%

更新历史

日期	新增实例	总实例
2025-07-14T09:31:35Z	9,837,208	9,837,208
2025-07-14T10:52:09Z	9,963,140	19,800,348
2025-07-23T01:17:57Z	1,749,161	21,549,509

搜集汇总

数据集介绍

构建方式

在社交媒体分析领域，x_dataset_202507数据集通过Bittensor Subnet 13去中心化网络构建，采用实时更新的方式采集X平台（原Twitter）的公开推文。数据采集严格遵守平台服务条款与API使用规范，通过分布式矿工节点进行预处理，确保数据流的时效性与多样性。所有用户名和URL均经过编码处理以保护用户隐私，原始数据经过清洗后保留文本内容、标签、时间戳等核心字段，形成结构化数据集合。

特点

该数据集展现出鲜明的动态性与多维度特征，包含超过2100万条推文实例，时间跨度为2025年6月至7月。数据字段涵盖文本内容、情感标签、主题分类及元数据，其中26.57%的推文带有话题标签，呈现多语言分布特点。值得注意的是，数据集存在典型社交媒体数据特性，如话题分布不均衡（#bitcoin和#ai等科技类标签占比显著）、时空偏差以及噪声干扰，这些特征为研究社交网络动态提供了真实场景。

使用方法

研究者可通过HuggingFace平台直接加载该数据集，建议按时间戳划分训练验证集以应对其流式更新特性。适用于情感分析、趋势预测等NLP任务，使用时需注意数据分布偏差可能对模型泛化能力的影响。根据MIT许可协议，用户需同时遵守X平台的使用条款，引用时需采用提供的标准文献格式。对于特定研究需求，可结合stats.json中的统计信息进行数据采样或加权处理。

背景与挑战

背景概述

x_dataset_202507数据集由Bittensor Subnet 13去中心化网络于2025年构建，旨在提供来自X平台（原Twitter）的实时社交媒体数据流。该数据集由Macrocosmos团队主导开发，通过分布式矿工网络持续更新，覆盖多语言文本分类、情感分析、命名实体识别等多样化自然语言处理任务。作为去中心化数据生态的典型代表，该数据集突破了传统社交媒体数据采集的时空局限性，为研究网络舆论动态、用户行为模式及跨文化传播提供了前所未有的实时分析基础。其创新的分布式架构显著提升了数据采集效率，同时通过编码技术有效平衡了数据效用与用户隐私保护。

当前挑战

该数据集面临的核心挑战主要体现在两个维度：在应用层面，社交媒体数据固有的噪声与偏见问题尤为突出，包括但不限于话题分布失衡（如51.62%样本无主题标签）、文化语境差异导致的语义歧义，以及实时数据流中的时效性偏差。在构建层面，去中心化采集机制虽然增强了数据多样性，但矿工节点的异构性导致数据质量波动，约26.57%含标签样本的标注一致性亟待验证。此外，隐私保护措施虽然通过编码技术实现，但URL与用户名的单向哈希处理可能影响社交网络分析的可追溯性，而平台API限制则导致数据覆盖存在结构性缺失。

常用场景

经典使用场景

在社交媒体分析领域，x_dataset_202507数据集以其丰富的文本内容和多维度的标注信息，成为研究者在情感分析、话题分类和用户行为建模等方面的理想选择。其包含的海量推文数据，结合时间戳和标签信息，为探索社交媒体的动态演变提供了坚实基础。

衍生相关工作

基于该数据集已产生多项重要研究成果，包括基于深度学习的实时情感分析框架、跨语言话题检测算法，以及结合时空特征的社交媒体影响力预测模型。这些工作显著推动了计算社会科学和网络舆情分析领域的发展。

数据集最近研究