x_dataset_108

Hugging Face2025-04-20 更新2025-04-21 收录

下载链接：

https://huggingface.co/datasets/Winboy/x_dataset_108

下载链接

链接失效反馈

官方服务：

资源简介：

Bittensor Subnet 13 X (Twitter) 数据集是Bittensor Subnet 13去中心化网络中的一部分，包含了来自X（前Twitter）的预处理数据。这些数据由网络矿工持续更新，为各种分析和机器学习任务提供实时推文流。数据集主要支持的任务包括情感分析、趋势检测、内容分析和用户行为建模等。数据集以英文为主，但也可能是多语言的。每个数据实例代表一条推文，包含推文内容、标签、话题标签、发布日期、编码后的用户名和URL等信息。该数据集不断更新，用户需要根据自己的需求和时间戳来创建数据分割。数据来源于公共推文，遵循平台的条款和API使用指南，同时采取了用户名和URL编码以保护用户隐私。

The Bittensor Subnet 13 X (Twitter) Dataset is a component of the Bittensor Subnet 13 decentralized network, comprising preprocessed data sourced from X (formerly Twitter). This dataset is continuously updated by network miners, delivering real-time tweet streams to support a wide range of analytical and machine learning tasks. Key supported tasks include sentiment analysis, trend detection, content analysis, user behavior modeling, and other related applications. The dataset is primarily in English but may also include multilingual content. Each data instance corresponds to a single tweet, containing details such as tweet text, tags, hashtags, publication timestamp, encoded usernames, and URLs. This dataset undergoes regular updates, and users need to create custom data splits based on their specific requirements and timestamps. The data is collected from public tweets, adheres to the platform’s terms of service and API usage guidelines, and utilizes username and URL encoding to safeguard user privacy.

创建时间：

2025-04-18

原始信息汇总

Bittensor Subnet 13 X (Twitter) Dataset 概述

基本信息

许可证: MIT
多语言支持: 多语言
数据来源: 原始数据
任务类别:
- 文本分类
- 标记分类
- 问答系统
- 摘要生成
- 文本生成
任务ID:
- 情感分析
- 主题分类
- 命名实体识别
- 语言建模
- 文本评分
- 多类分类
- 多标签分类
- 抽取式问答
- 新闻文章摘要

数据集描述

仓库: Winboy/x_dataset_108
子网: Bittensor Subnet 13
矿工热键: 5GGj8giwq7GHEmpaWH8KCjLPWEnATcjUC37hrqCtfZHpmVjG

数据集摘要

该数据集是Bittensor Subnet 13去中心化网络的一部分，包含来自X（前Twitter）的预处理数据。数据由网络矿工持续更新，提供实时的推文流，适用于各种分析和机器学习任务。

支持任务

情感分析
趋势检测
内容分析
用户行为建模

语言

主要语言为英语，但由于去中心化的创建方式，可能包含多语言内容。

数据结构

数据实例

每个实例代表一条推文，包含以下字段：

text (字符串): 推文的主要内容。
label (字符串): 推文的情感或主题类别。
tweet_hashtags (列表): 推文中使用的标签列表，可能为空。
datetime (字符串): 推文发布的日期。
username_encoded (字符串): 用户名的编码版本，以保护用户隐私。
url_encoded (字符串): 推文中包含的URL的编码版本，可能为空。

数据分割

数据集持续更新，没有固定的分割。用户应根据自己的需求和数据的时戳创建自己的分割。

数据集创建

源数据

数据来自X（Twitter）的公开推文，遵循平台的服务条款和API使用指南。

个人和敏感信息

所有用户名和URL均经过编码以保护用户隐私。数据集不故意包含个人或敏感信息。

使用注意事项

社会影响和偏见

用户应注意X（Twitter）数据中潜在的偏见，包括人口统计和内容偏见。该数据集反映了X上表达的内容和观点，不应被视为一般人群的代表样本。

限制

数据质量可能因去中心化的收集和预处理方式而有所不同。
数据集可能包含社交媒体平台常见的噪音、垃圾邮件或不相关内容。
由于实时收集方法，可能存在时间偏差。
数据集仅限于公开推文，不包括私人账户或直接消息。
并非所有推文都包含标签或URL。

附加信息

许可信息

数据集根据MIT许可证发布。使用该数据集还受X使用条款的约束。

引用信息

@misc{Winboy2025datauniversex_dataset_108, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={Winboy}, year={2025}, url={https://huggingface.co/datasets/Winboy/x_dataset_108}, }

贡献

如需报告问题或贡献数据集，请联系矿工或使用Bittensor Subnet 13治理机制。

数据集统计

总实例数: 1952700
日期范围: 2025-03-16T00:00:00Z 至 2025-04-20T00:00:00Z
最后更新时间: 2025-04-20T14:02:41Z

数据分布

带标签的推文: 94.95%
无标签的推文: 5.05%

前10标签

排名	主题	总数	百分比
1	#wrestlemania	173692	9.37%
2	#enchella	173206	9.34%
3	#lisachella	94828	5.11%
4	#それスノ	79392	4.28%
5	#sixtonesann	65750	3.55%
6	#ईसाईधर्म_का_वास्तविक_ज्ञान	60212	3.25%
7	#enhypen	50699	2.73%
8	#ブルアカらいぶすぷりんぐsp	39671	2.14%
9	#perayafminnanningd1	37252	2.01%
10	#祝nikke2周年半生放送	36651	1.98%

更新历史

日期	新增实例	总实例
2025-04-18T07:57:05Z	98516	98516
2025-04-18T07:57:15Z	87728	186244
2025-04-19T01:58:54Z	390263	576507
2025-04-19T19:59:57Z	544485	1120992
2025-04-20T14:02:41Z	831708	1952700

搜集汇总

数据集介绍

构建方式

x_dataset_108数据集依托Bittensor Subnet 13去中心化网络构建，采用分布式矿工节点实时采集X平台（原Twitter）公开推文数据。数据采集严格遵循平台服务条款与API使用规范，通过哈希编码技术对用户名和URL进行脱敏处理，确保符合隐私保护要求。动态更新机制使数据集保持时效性，最新统计显示已收录195万条2025年3月至4月间的推文实例。

特点

作为多语言社交媒体数据集，其核心价值体现在六个结构化字段：包含推文正文文本、情感/主题标签、时间戳及脱敏用户信息。94.95%的实例带有话题标签，涵盖#wrestlemania等十大高频话题的跨文化内容。数据具有典型的社交媒体特征，包括9.37%的娱乐话题集中度，以及日语、印地语等多语言内容分布，为研究数字时代的话语传播提供了丰富素材。

使用方法

研究者可通过HuggingFace平台直接加载数据集，建议按时间戳自定义划分训练验证集。该数据集支持文本分类、实体识别等六类NLP任务，特别适合动态舆情分析研究。使用需注意两点：其一，应配合stats.json文件分析数据分布特征；其二，需遵守MIT许可及X平台附加条款。典型应用场景包括构建实时趋势预测模型或跨文化传播分析，但需预先处理约5%的无标签数据。

背景与挑战

背景概述

x_dataset_108数据集作为Bittensor Subnet 13去中心化网络的重要组成部分，由Macrocosmos研究团队于2025年构建，旨在提供实时更新的X（原Twitter）社交媒体数据流。该数据集依托区块链技术的分布式特性，通过全球矿工节点持续采集和预处理公开推文，为自然语言处理领域提供了多任务研究基础。其核心价值在于突破了传统社交媒体数据集静态采集的局限，支持情感分析、话题分类、命名实体识别等多样化任务，尤其为实时舆情监控和用户行为建模提供了动态数据支撑。数据集的多语言特性和隐私保护机制，进一步拓展了其在跨国界社会计算研究中的应用潜力。

当前挑战

该数据集面临双重挑战：在研究层面，社交媒体的动态性导致数据存在显著的时间敏感性和话题漂移现象，使得模型需持续适应语义演变；平台固有的用户群体偏差和内容分布不均衡，可能放大算法决策中的潜在偏见。在构建层面，去中心化采集机制虽然保障了数据多样性，但各节点预处理标准的不统一引入了噪声和标注不一致问题；实时流数据中的垃圾信息过滤、多语言混合文本的语义对齐，以及隐私保护与数据效用间的平衡，均为技术实现的关键难点。此外，Twitter API的访问限制与条款变更，持续影响着数据采集的合规性与可持续性。

常用场景

经典使用场景

在社交媒体分析领域，x_dataset_108数据集因其丰富的文本内容和多维度的元数据，成为研究推特平台动态的宝贵资源。该数据集最经典的使用场景包括情感分析和主题分类，研究人员通过分析推文文本和标签，揭示公众对特定事件或话题的情绪倾向和关注焦点。这种分析不仅限于单一语言，其多语言特性为跨文化比较研究提供了可能。

解决学术问题

x_dataset_108数据集有效解决了社交媒体研究中数据实时性和多样性的挑战。通过提供持续更新的推文数据，该数据集支持学者探究网络舆论演化、用户行为模式及信息传播机制等核心问题。其编码处理的用户信息在保护隐私的同时，为社会学和计算传播学领域的伦理研究提供了范本，推动了负责任的数据挖掘实践。

衍生相关工作

基于x_dataset_108的经典研究包括《多语言社交媒体事件检测框架》等开创性工作，这些成果提出了融合时空特征的混合神经网络模型。在自然语言处理领域，该数据集催生了多个基准测试任务，如跨语言话题迁移学习挑战赛，推动了预训练语言模型在社交媒体文本上的适应性研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集