x_dataset_24589
收藏Hugging Face2025-01-30 更新2025-02-10 收录
下载链接:
https://huggingface.co/datasets/hshwk1983/x_dataset_24589
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Bittensor Subnet 13去中心化网络的一部分,包含来自X(前Twitter)的预处理数据。数据由网络矿工持续更新,提供实时的推文流,适用于各种分析和机器学习任务。数据集支持多种任务,如情感分析、趋势检测、内容分析和用户行为建模。数据集主要包含英文数据,但也可能包含多语言内容。每个数据实例代表一条推文,包含文本、标签、推文标签、日期时间、编码用户名和编码URL等字段。数据集遵循X的API使用指南,并保护用户隐私。
创建时间:
2025-01-27
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称: Bittensor Subnet 13 X (Twitter) Dataset
- 存储库: hshwk1983/x_dataset_24589
- 子网: Bittensor Subnet 13
- 矿工热键: 5Cd2cLDhDSPebzMYgFTUDpBsL1hmwYboabmWYV3G2eQ26jaC
数据集简介
本数据集是Bittensor Subnet 13去中心化网络的一部分,包含来自X(前Twitter)的预处理数据。数据由网络矿工持续更新,提供实时推文流以用于各种分析和机器学习任务。
支持的任务
- 文本分类
- 令牌分类
- 问题回答
- 摘要
- 文本生成
具体任务包括:
- 情感分析
- 主题分类
- 命名实体识别
- 语言建模
- 文本评分
- 多类分类
- 多标签分类
- 提取式问答
- 新闻文章摘要
数据集结构
数据实例
每个实例代表一条推文,包含以下字段:
text(string): 推文的主要内容。label(string): 推文的情感或主题类别。tweet_hashtags(list): 推文中使用的标签列表。datetime(string): 推文发布日期。username_encoded(string): 编码后的用户名,以保护用户隐私。url_encoded(string): 推文中包含的URL的编码形式。
数据切分
数据集持续更新,没有固定的切分。用户应根据需求和数据的时间戳创建自己的切分。
数据来源
数据从X(Twitter)上的公开推文中收集,遵守平台的服务条款和API使用指南。
数据统计
- 总实例数: 37134627
- 日期范围: 2025-01-21至2025-02-05
- 最后更新: 2025-02-10
数据分布
- 带标签的推文: 48.63%
- 不带标签的推文: 51.37%
前10个标签
| 排名 | 主题 | 总计数 | 百分比 |
|---|---|---|---|
| 1 | NULL | 19077383 | 51.37% |
| 2 | #riyadh | 286929 | 0.77% |
| 3 | #zelena | 237198 | 0.64% |
| 4 | #tiktok | 174349 | 0.47% |
| 5 | #bbb25 | 139281 | 0.38% |
| 6 | #jhope_at_galadespiècesjaunes | 123749 | 0.33% |
| 7 | #ad | 103107 | 0.28% |
| 8 | #granhermano | 70007 | 0.19% |
| 9 | #bbmzansi | 57617 | 0.16% |
| 10 | #trump | 53383 | 0.14% |
更新历史
| 日期 | 新增实例数 | 总实例数 |
|---|---|---|
| 2025-01-27 | 4628890 | 4628890 |
| 2025-01-30 | 8280101 | 12908991 |
| 2025-02-03 | 9437268 | 22346259 |
| 2025-02-06 | 7692590 | 30038849 |
| 2025-02-10 | 7095778 | 37134627 |
搜集汇总
数据集介绍

构建方式
x_dataset_24589数据集构建于Bittensor Subnet 13网络,通过该网络中的矿工持续采集并预处理X平台(原Twitter)的公开推文数据。该数据集以分布式方式不断更新,为用户提供实时推文流,以支持各类分析和机器学习任务。
特点
本数据集具有多语言特性,以英语为主,涵盖了情感分析、主题分类、命名实体识别、语言模型构建、文本评分等多种任务类型。数据集不包含固定划分,用户可根据时间戳和自身需求创建数据子集。为保护用户隐私,所有用户名和URL信息均经过编码处理。
使用方法
用户在使用该数据集时,应自行根据需求进行数据切分。数据集适用于多种社交媒体动态分析以及创新应用开发。在使用数据时,需遵守X平台的使用条款,并在研究成果中引用数据集信息。同时,用户需注意数据可能存在的偏差和局限性。
背景与挑战
背景概述
x_dataset_24589数据集,作为Bittensor Subnet 13分布式网络的一部分,收集并整理了来自X(原Twitter)的预处理数据。该数据集自2025年起,由网络矿工持续更新,为研究者提供了实时推文流,以支持各种分析和机器学习任务。该数据集的创建旨在促进社交媒体动态的研究,并在情感分析、趋势检测、内容分析和用户行为建模等多个领域发挥重要作用。其多语言特性使得研究不仅局限于英语,也为多语言环境下的研究提供了可能。
当前挑战
在构建x_dataset_24589数据集的过程中,面临了多方面的挑战。首先,数据质量的不稳定性是主要问题之一,因其去中心化的收集和预处理特性,数据中可能包含噪声、垃圾信息和无关内容。其次,实时收集方法可能导致时间偏差,且数据集仅限于公开推文,不包括私人账户或直接消息。此外,数据集的使用者需要意识到潜在的社交媒体数据偏差,并在研究中谨慎处理。在确保用户隐私方面,所有用户名和URL都经过编码处理,以避免有意包含个人或敏感信息。
常用场景
经典使用场景
在当今信息化社会,社交媒体已成为数据挖掘和自然语言处理的宝贵资源。x_dataset_24589作为Bittensor Subnet 13网络的一部分,是一个集成了实时推文流的数据集,其经典使用场景主要围绕社交媒体数据的分析,如情感分析、话题分类、命名实体识别等任务,为研究社交媒体动态提供了丰富的数据基础。
衍生相关工作
基于x_dataset_24589,研究者可以进一步开展如情绪预测模型、社交媒体影响力分析等相关工作,推动社交媒体数据挖掘技术的发展和应用,衍生出更多具有社会价值和商业价值的研究成果。
数据集最近研究
最新研究方向
x_dataset_24589数据集作为Bittensor Subnet 13网络的一部分,其不断更新的特性为情感分析、趋势检测、内容分析和用户行为建模等研究领域提供了丰富的资源。近期,该数据集在前沿研究方向上,主要聚焦于社交媒体动态的多维度分析,尤其是对Twitter平台上信息传播机制的深入探究。研究者们利用此数据集,不仅能够捕捉到即时的公共话题讨论,还能对用户行为进行建模,以预测和评估社交媒体上的热点事件及其社会影响。这一研究方向的深入,对于理解网络舆情动态、优化信息传播策略具有重要意义。
以上内容由遇见数据集搜集并总结生成



