x_dataset_57071
收藏Hugging Face2025-01-30 更新2025-02-10 收录
下载链接:
https://huggingface.co/datasets/rainbowbridge/x_dataset_57071
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Bittensor Subnet 13去中心化网络的一部分,包含来自X(前身为Twitter)的预处理数据。数据由网络矿工持续更新,提供实时的推文流,适用于各种分析和机器学习任务。数据集主要包含英文内容,但也可能包含多语言内容。数据集的结构包括推文文本、标签、推文中的标签、发布时间、编码的用户名和编码的URL。数据集的使用需注意潜在的偏见和限制,如数据质量、噪声和时态偏差。数据集遵循MIT许可证,并需遵守X的使用条款。
创建时间:
2025-01-27
原始信息汇总
数据集概述
数据集信息
- 名称: Bittensor Subnet 13 X (Twitter) Dataset
- 存储库: rainbowbridge/x_dataset_57071
- 子网: Bittensor Subnet 13
- 矿工热点密钥: 5F2S4Xnn1UqWXhWmdu1kgfeu1ZpFoQEYbxF8oCNpRHnMZNar
- 许可证: MIT
- 语言: 主要为英语,但由于去中心化的创建方式,可能为多语言
- 总实例数: 38,314,331
- 日期范围: 2025-01-21至2025-02-04
- 最后更新: 2025-02-10
数据集描述
该数据集是Bittensor Subnet 13去中心化网络的一部分,包含来自X(前Twitter)的预处理数据。数据由网络矿工持续更新,为各种分析和机器学习任务提供实时推文流。
支持的任务
- 文本分类
- 令牌分类
- 问题回答
- 摘要
- 文本生成
具体任务ID
- 情感分析
- 主题分类
- 命名实体识别
- 语言建模
- 文本评分
- 多类别分类
- 多标签分类
- 提取式问答
- 新闻文章摘要
数据集结构
数据实例字段
text: 推文的主要内容label: 推文的情感或主题类别tweet_hashtags: 推文中使用的标签列表datetime: 推文发布日期username_encoded: 经过编码的用户名,以保护用户隐私url_encoded: 推文中包含的URL的编码版本
数据拆分
数据集持续更新,没有固定的拆分。用户应根据需求和数据的时间戳创建自己的拆分。
使用数据的注意事项
- 考虑到社交影响和偏见
- 数据质量可能因去中心化的收集和预处理而有所不同
- 数据集可能包含社交平台典型的噪声、垃圾邮件或不相关内容
- 时间偏差可能存在,因为数据是实时收集的
- 数据集仅限于公开推文,不包括私人账户或直接消息
- 不是所有推文都包含标签或URL
版权信息
数据集在MIT许可下发布。使用此数据集也受到X服务条款的约束。
引用信息
@misc{rainbowbridge2025datauniversex_dataset_57071, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={rainbowbridge}, year={2025}, url={https://huggingface.co/datasets/rainbowbridge/x_dataset_57071}, }
数据统计
- 推文带标签比例: 45.74%
- 推文不带标签比例: 54.26%
- 前10大标签及占比
| 排名 | 主题 | 总计数 | 百分比 |
|---|---|---|---|
| 1 | NULL | 20,790,565 | 54.26% |
| 2 | #riyadh | 281,003 | 0.73% |
| 3 | #zelena | 220,527 | 0.58% |
| 4 | #tiktok | 171,165 | 0.45% |
| 5 | #bbb25 | 102,659 | 0.27% |
| 6 | #ad | 100,989 | 0.26% |
| 7 | #jhope_at_galadespiècesjaunes | 67,704 | 0.18% |
| 8 | #granhermano | 55,367 | 0.14% |
| 9 | #trump | 52,213 | 0.14% |
| 10 | #pr | 51,996 | 0.14% |
搜集汇总
数据集介绍

构建方式
x_dataset_57071数据集构建于Bittensor Subnet 13网络中,该网络通过去中心化的数据采集方式,从X(原Twitter)平台收集并预处理数据。数据集持续更新,由网络矿工提供实时推文流,以供多样化的分析和机器学习任务使用。
特点
本数据集具备多语言特性,以英语为主,但因去中心化的创建方式,亦包含其他语言。其支持多种任务类别,如文本分类、命名实体识别、语言模型构建等,并具有实时更新、多样化的推文内容等特点。数据集在保护用户隐私方面做了特别处理,对用户名和URL进行了编码。
使用方法
用户在使用该数据集时,可根据需求和数据时间戳自行创建数据划分。由于数据集的实时更新特性,用户需注意数据质量可能存在波动,并可能包含社交媒体平台常见的噪音、垃圾信息或无关内容。在使用时,还应考虑潜在的社交影响和偏见问题。
背景与挑战
背景概述
x_dataset_57071数据集,作为Bittensor Subnet 13分布式网络的一部分,收集了来自X(前Twitter)的预处理数据。该数据集自2025年起,由网络矿工持续更新,为各种分析和机器学习任务提供实时推文流。该数据集的主要研究人员或机构为rainbowbridge,其核心研究问题涉及社交网络的动态分析、情感分析、趋势检测等内容,对社交媒体数据挖掘和自然语言处理领域产生了显著影响。
当前挑战
该数据集在构建和应用过程中面临的挑战包括:确保数据质量的一致性,由于数据是去中心化收集和预处理,可能存在数据噪声、垃圾邮件或无关内容;处理社交媒体数据中的固有偏见,如 demographic 和 content biases;此外,数据集的实时性可能导致时间偏见,且仅限于公开推文,不包括私人账户或直接消息。
常用场景
经典使用场景
x_dataset_57071作为源自Twitter的社交网络数据集,其经典使用场景主要集中于文本分类、命名实体识别、情感分析等自然语言处理领域。研究人员可以借助该数据集,对推文内容进行情感倾向性判断,识别推文中的主题类别,或是抽取关键实体信息,从而深入探索社交媒体中的用户行为模式与内容趋势。
解决学术问题
该数据集解决了社交媒体数据研究中关于实时性、多样性与隐私保护的挑战。它为学术研究提供了实时更新的数据流,有助于研究者捕捉最新的社交媒体动态,同时通过编码用户名和URLs来保护用户隐私。此外,该数据集也助力于解决文本数据中的噪声与偏差问题,为研究提供了丰富的多标签与多类别的标注数据。
衍生相关工作
基于x_dataset_57071,研究者们衍生出了众多相关工作,如情感分析模型、社交媒体影响力评估工具、以及用于监测特定事件或话题的仪表板。这些工作不仅扩展了数据集的应用范围,也推动了社交媒体数据分析领域的发展,为理解网络舆论与用户行为提供了新的视角与方法论。
以上内容由遇见数据集搜集并总结生成



