x_dataset_192

Hugging Face2025-07-16 更新2025-07-17 收录

下载链接：

https://huggingface.co/datasets/Crystal1101/x_dataset_192

下载链接

链接失效反馈

官方服务：

资源简介：

Bittensor Subnet 13 X (Twitter) 数据集是Bittensor Subnet 13去中心化网络的一部分，包含了来自X（前Twitter）的预处理数据。这些数据由网络矿工持续更新，提供了用于各种分析和机器学习任务的实时推文流。数据集支持多种任务，如情感分析、趋势检测、内容分析和用户行为建模等。数据集主要是英文的，但由于创建的去中心化方式，也可能是多语言的。每个数据实例代表一条推文，包括推文内容、标签、使用的 hashtags、发布日期、编码后的用户名和 URL。数据集不断更新，没有固定的分割，用户应根据需求和数据的时间戳创建自己的分割。数据来源于遵守平台服务条款和API使用指南的公共推文，并对用户名和URL进行编码以保护隐私。

The Bittensor Subnet 13 X (Twitter) Dataset is part of the decentralized Bittensor Subnet 13 network, containing preprocessed data sourced from X (formerly Twitter). The data is continuously updated by the network's miners and provides real-time tweet streams for various analytical and machine learning tasks. The dataset supports multiple tasks including sentiment analysis, trend detection, content analysis, user behavior modeling, and more. The dataset is primarily in English, but may also be multilingual due to its decentralized curation process. Each data instance represents a single tweet, containing the tweet content, labels, used hashtags, publication date, encoded usernames, and URLs. The dataset is updated continuously with no fixed splits; users should create their own data splits based on their needs and the data's timestamps. The data is sourced from public tweets that comply with the platform's Terms of Service and API usage guidelines, and usernames and URLs are encoded to protect user privacy.

创建时间：

2025-07-02

原始信息汇总

数据集概述

基本信息

数据集名称: Bittensor Subnet 13 X (Twitter) Dataset
存储库: Crystal1101/x_dataset_192
许可证: MIT
多语言支持: 多语言
来源数据集: 原始数据
子网: Bittensor Subnet 13
矿工热键: 5CVSD3Rh139QP38QEQuFWwLeyU56PCZBtuRTDi2kBeKMgSgD

数据集描述

数据集总结: 该数据集是Bittensor Subnet 13去中心化网络的一部分，包含来自X（前Twitter）的预处理数据。数据由网络矿工持续更新，提供实时的推文流，适用于各种分析和机器学习任务。
主要语言: 主要为英语，但由于去中心化的创建方式，可能包含多语言内容。

支持的任务

任务类别:
- 文本分类
- 标记分类
- 问答
- 摘要
- 文本生成
具体任务:
- 情感分析
- 主题分类
- 命名实体识别
- 语言建模
- 文本评分
- 多类分类
- 多标签分类
- 提取式问答
- 新闻文章摘要

数据集结构

数据实例

每个实例代表一条推文，包含以下字段：

text (字符串): 推文的主要内容。
label (字符串): 推文的情感或主题类别。
tweet_hashtags (列表): 推文中使用的标签列表。如果没有标签则为空。
datetime (字符串): 推文发布的日期。
username_encoded (字符串): 用户名的编码版本，以保护用户隐私。
url_encoded (字符串): 推文中包含的URL的编码版本。如果没有URL则为空。

数据分割

该数据集持续更新，没有固定的分割。用户应根据自己的需求和数据的时戳创建自己的分割。

数据集创建

源数据

数据来自X（Twitter）上的公开推文，遵循平台的服务条款和API使用指南。

个人和敏感信息

所有用户名和URL均被编码以保护用户隐私。数据集不故意包含个人或敏感信息。

使用注意事项

社会影响和偏见

用户应注意X（Twitter）数据中潜在的偏见，包括人口统计和内容偏见。该数据集反映了X上表达的内容和观点，不应被视为一般人群的代表性样本。

限制

由于收集和预处理的去中心化性质，数据质量可能有所不同。
数据集可能包含社交媒体平台典型的噪音、垃圾邮件或无关内容。
由于实时收集方法，可能存在时间偏差。
数据集仅限于公开推文，不包括私人账户或直接消息。
并非所有推文都包含标签或URL。

附加信息

许可信息

数据集根据MIT许可证发布。使用该数据集还受X使用条款的约束。

引用信息

如果使用该数据集进行研究，请引用如下：

@misc{Crystal11012025datauniversex_dataset_192, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={Crystal1101}, year={2025}, url={https://huggingface.co/datasets/Crystal1101/x_dataset_192}, }

贡献

如需报告问题或贡献数据集，请联系矿工或使用Bittensor Subnet 13治理机制。

数据集统计

总实例数: 169
日期范围: 2025-07-01T00:00:00Z 至 2025-07-02T00:00:00Z
最后更新时间: 2025-07-16T15:35:53Z

数据分布

带标签的推文: 100.00%
无标签的推文: 0.00%

前10标签

排名	主题	总数	百分比
1	#crypto	29	17.16%
2	#dogecoin	17	10.06%
3	#bitcoin	14	8.28%
4	#btc	10	5.92%
5	#cryptocurrency	9	5.33%
6	#crypto_coin	4	2.37%
7	#defi	4	2.37%
8	#bitcoinmining	4	2.37%
9	#xrp	3	1.78%
10	#eth	3	1.78%

更新历史

日期	新实例	总实例
2025-07-02T13:06:32Z	97	97
2025-07-04T15:52:17Z	56	153
2025-07-05T08:57:49Z	1	154
2025-07-06T03:08:24Z	1	155
2025-07-06T21:27:11Z	1	156
2025-07-07T15:27:30Z	1	157
2025-07-08T09:27:55Z	1	158
2025-07-09T03:28:25Z	1	159
2025-07-09T21:29:09Z	1	160
2025-07-10T15:29:48Z	1	161
2025-07-11T09:30:28Z	1	162
2025-07-12T03:31:16Z	1	163
2025-07-12T21:31:56Z	1	164
2025-07-13T15:32:36Z	1	165
2025-07-14T09:33:18Z	1	166
2025-07-15T03:34:08Z	1	167
2025-07-15T21:34:59Z	1	168
2025-07-16T15:35:53Z	1	169

搜集汇总

数据集介绍

构建方式

在社交媒体分析领域，x_dataset_192数据集通过Bittensor Subnet 13去中心化网络构建，采用实时更新的机制采集自X平台（原Twitter）的公开推文。数据采集严格遵循平台服务条款与API使用规范，所有用户名和URL均经过编码处理以保护用户隐私。该数据集采用动态更新模式，由网络矿工持续维护，确保数据的时效性和多样性。

特点

作为多任务适配的社交媒体数据集，x_dataset_192包含文本内容、情感标签、话题分类等结构化字段，特别强化了加密货币相关话题的覆盖度。其显著特征体现在实时更新的动态架构、隐私保护的编码设计以及多语言混杂的语料构成。数据分布呈现典型社交媒体特征，包含17.16%的#crypto主题推文及随时间线性增长的实例数量，为研究社交网络动态演化提供理想样本。

使用方法

研究者可通过HuggingFace平台直接加载该数据集，建议按时间戳自定义数据划分以适应不同研究需求。该数据集支持情感分析、趋势预测等经典NLP任务，尤其适合加密货币领域的舆情监测。使用需注意社交媒体的固有偏差，建议结合统计文件中的主题分布数据进行偏差校正。根据MIT许可要求，引用时需注明原始作者及数据来源。

背景与挑战

背景概述

x_dataset_192作为Bittensor Subnet 13去中心化网络的重要组成部分，由Macrocosmos研究团队于2025年构建，旨在为社交媒体分析提供实时、多模态的Twitter数据支持。该数据集依托区块链技术的分布式特性，通过矿工节点持续采集并预处理公开推文，覆盖情感分析、主题分类、命名实体识别等自然语言处理核心任务。其创新性体现在将Web3架构与社交数据生态相结合，为研究加密货币社区动态、舆情传播模式等前沿课题提供了独特资源，对计算社会科学领域具有方法论启示意义。

当前挑战

该数据集面临双重挑战：在领域问题层面，社交媒体数据的动态性导致模型需应对话题快速演变和语义歧义，而平台固有偏见可能影响分析结论的普适性；在构建技术层面，去中心化采集机制带来数据质量参差问题，包括噪声过滤、跨矿工标注一致性等难题。隐私保护要求对用户信息进行严格编码，但可能损失部分元数据价值，且实时更新机制对数据版本控制提出特殊要求。此外，多语言推文的非均衡分布也为构建跨文化分析模型增加了复杂性。

常用场景

经典使用场景

在社交媒体分析领域，x_dataset_192数据集为研究者提供了丰富的文本数据，尤其适用于情感分析和主题分类任务。通过分析推文中的文本内容和标签，研究者能够深入理解用户在特定话题上的情感倾向，进而揭示社会舆论的动态变化。该数据集的多语言特性进一步扩展了其应用范围，使其成为跨文化研究的理想选择。

解决学术问题

x_dataset_192数据集有效解决了社交媒体数据碎片化和噪声干扰的学术难题。其结构化的数据字段和实时更新的特性，为研究者提供了高质量的语料库，支持命名实体识别、文本生成等多种自然语言处理任务。数据集中的编码处理机制还解决了用户隐私保护的伦理问题，为合规研究提供了范例。

衍生相关工作

基于x_dataset_192的经典研究包括社交网络传播模型构建和跨平台内容比对分析。在去中心化数据采集框架下，该数据集催生了多个创新的数据清洗算法，特别是在处理实时流数据方面取得了突破性进展。相关成果已应用于改进社交媒体的内容推荐系统和异常检测机制。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集