x_dataset_39
收藏Hugging Face2025-01-30 更新2025-02-10 收录
下载链接:
https://huggingface.co/datasets/futuremoon/x_dataset_39
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Bittensor Subnet 13去中心化网络的一部分,包含来自X(前Twitter)的预处理数据。数据由网络矿工持续更新,提供实时的推文流,适用于各种分析和机器学习任务。数据集支持多种自然语言处理任务,如情感分析、趋势检测、内容分析和用户行为建模。数据集主要包含英文数据,但也可能包含多语言内容。每个数据实例代表一条推文,包含文本、标签、推文标签、日期时间、编码用户名和编码URL等字段。数据集的创建遵循X的API使用指南,保护用户隐私,所有用户名和URL都经过编码处理。数据集是持续更新的,没有固定的分割,用户需要根据自己的需求进行数据分割。
创建时间:
2025-01-23
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称: Bittensor Subnet 13 X (Twitter) Dataset
- 存储库: futuremoon/x_dataset_39
- 子网: Bittensor Subnet 13
- 数据来源: X (Twitter) 公共推文
- 许可证: MIT
数据集描述
- 数据集简介: 该数据集是Bittensor Subnet 13去中心化网络的一部分,包含来自X(前Twitter)的预处理数据。数据由网络矿工持续更新,提供实时推文流,用于各种分析和机器学习任务。
- 支持任务: 数据集支持多种任务,包括文本分类、标记分类、问答、摘要生成和文本生成等。
数据集结构
- 数据实例: 每个实例代表一条推文,包含以下字段:
text(推文内容)、label(推文情感或主题类别)、tweet_hashtags(推文中的话题标签)、datetime(推文发布日期)、username_encoded(编码后的用户名)、url_encoded(编码后的URL)。 - 数据分割: 数据集持续更新,没有固定的分割。用户应根据数据的时间戳创建自己的数据分割。
数据集统计
- 总实例数: 200,981,783
- 日期范围: 2024-12-24至2025-02-09
- 最新更新: 2025-02-10
数据分布
- 带话题标签的推文: 16.57%
- 无话题标签的推文: 83.43%
常见话题标签
- #riyadh
- #zelena
- #tiktok
- #ad
- #tenleehitsyslmw25
- #조건
- #plutoseriesep11
- #bbb25
- #perfect10linersep16
- #merrychristmas
更新历史
数据集的更新历史记录了每次更新时新增的实例数和总实例数。
搜集汇总
数据集介绍

构建方式
x_dataset_39数据集是Bittensor Subnet 13去中心化网络的一部分,包含来自X(前Twitter)的预处理数据。该数据集通过遵循平台服务条款和API使用指南,从公共推文中持续收集并更新,为用户提供实时推文流,以支持各类分析和机器学习任务。
特点
该数据集具备多语言特性,以英语为主,但也包含多语言内容。其结构包含推文文本、标签、话题标签、发布时间、用户名编码和URL编码等字段,以保护用户隐私。数据集不断更新,无固定划分,用户需根据需求和数据时间戳自行创建划分。数据集反映了X平台上的内容和观点,可能包含社会影响和偏见。
使用方法
用户可利用该数据集进行情感分析、趋势检测、内容分析和用户行为建模等任务。由于数据质量可能因去中心化收集和预处理而有所波动,且可能包含社交媒体平台典型的噪声、垃圾邮件或无关内容,用户在使用时应考虑这些局限性。同时,数据集仅限于公共推文,不包括私人账户或直接消息。
背景与挑战
背景概述
x_dataset_39数据集,隶属于Bittensor Subnet 13分布式网络,收集并整合了来自X(原Twitter)平台的预处理数据。该数据集持续更新,由网络矿工负责维护,为用户提供实时推文流,以支持各类分析和机器学习任务。该数据集的创建旨在深入研究社交媒体动态,并推动创新应用的发展。自2025年起,该数据集已由futuremoon团队维护,并在遵循X平台服务条款和API使用指南的前提下,对公开推文进行收集。
当前挑战
在构建x_dataset_39数据集的过程中,研究人员面临了多方面的挑战。首先,由于数据的去中心化收集和预处理,数据质量可能存在波动。其次,数据中可能包含社交媒体平台常见的噪音、垃圾信息和无关内容。此外,实时收集方法可能导致时间偏差,且数据集仅限于公开推文,不包括私人账户或直接消息。在使用该数据集时,还需注意潜在的社会影响和偏见问题,包括人口统计和内容偏见。
常用场景
经典使用场景
在社会科学与计算社会科学研究中,x_dataset_39数据集作为一种多语言、多元化的社交媒体数据集,其经典使用场景主要集中于情感分析、主题分类、命名实体识别、语言模型训练、文本评分等多种文本处理任务。该数据集提供了实时更新的推文流,使得研究人员能够捕捉并分析社会热点事件、用户情绪波动以及话题发展趋势。
衍生相关工作
基于x_dataset_39数据集,研究者们衍生出了一系列相关工作,包括构建更为复杂的情感分析模型、分析社交媒体上的信息扩散网络、以及研究特定话题如健康、政治、社会事件的传播特征等。这些工作不仅推动了社交媒体数据分析领域的发展,也为相关政策的制定和优化提供了科学依据。
数据集最近研究
最新研究方向
x_dataset_39数据集,作为Bittensor Subnet 13网络中的一部分,包含了来自X(Twitter)的预处理数据。该数据集的实时更新特性使其成为研究社交媒体动态和开发创新应用的重要资源。近期研究主要聚焦于利用该数据集进行情感分析、趋势检测、内容分析和用户行为建模等任务。这些研究不仅揭示了社交网络中的信息传播规律,也为情绪预测和舆论监控提供了新的视角,对于理解群体心理和指导公共决策具有显著影响和意义。
以上内容由遇见数据集搜集并总结生成



