x_dataset_39

Hugging Face2025-01-30 更新2025-02-10 收录

下载链接：

https://huggingface.co/datasets/futuremoon/x_dataset_39

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是Bittensor Subnet 13去中心化网络的一部分，包含来自X（前Twitter）的预处理数据。数据由网络矿工持续更新，提供实时的推文流，适用于各种分析和机器学习任务。数据集支持多种自然语言处理任务，如情感分析、趋势检测、内容分析和用户行为建模。数据集主要包含英文数据，但也可能包含多语言内容。每个数据实例代表一条推文，包含文本、标签、推文标签、日期时间、编码用户名和编码URL等字段。数据集的创建遵循X的API使用指南，保护用户隐私，所有用户名和URL都经过编码处理。数据集是持续更新的，没有固定的分割，用户需要根据自己的需求进行数据分割。

创建时间：

2025-01-23

原始信息汇总

数据集概述

数据集基本信息

数据集名称: Bittensor Subnet 13 X (Twitter) Dataset
存储库: futuremoon/x_dataset_39
子网: Bittensor Subnet 13
数据来源: X (Twitter) 公共推文
许可证: MIT

数据集描述

数据集简介: 该数据集是Bittensor Subnet 13去中心化网络的一部分，包含来自X（前Twitter）的预处理数据。数据由网络矿工持续更新，提供实时推文流，用于各种分析和机器学习任务。
支持任务: 数据集支持多种任务，包括文本分类、标记分类、问答、摘要生成和文本生成等。

数据集结构

数据实例: 每个实例代表一条推文，包含以下字段：text（推文内容）、label（推文情感或主题类别）、tweet_hashtags（推文中的话题标签）、datetime（推文发布日期）、username_encoded（编码后的用户名）、url_encoded（编码后的URL）。
数据分割: 数据集持续更新，没有固定的分割。用户应根据数据的时间戳创建自己的数据分割。

数据集统计

总实例数: 200,981,783
日期范围: 2024-12-24至2025-02-09
最新更新: 2025-02-10

数据分布

带话题标签的推文: 16.57%
无话题标签的推文: 83.43%

常见话题标签

#riyadh
#zelena
#tiktok
#ad
#tenleehitsyslmw25
#조건
#plutoseriesep11
#bbb25
#perfect10linersep16
#merrychristmas

更新历史

数据集的更新历史记录了每次更新时新增的实例数和总实例数。

搜集汇总

数据集介绍

构建方式

x_dataset_39数据集是Bittensor Subnet 13去中心化网络的一部分，包含来自X（前Twitter）的预处理数据。该数据集通过遵循平台服务条款和API使用指南，从公共推文中持续收集并更新，为用户提供实时推文流，以支持各类分析和机器学习任务。

特点

该数据集具备多语言特性，以英语为主，但也包含多语言内容。其结构包含推文文本、标签、话题标签、发布时间、用户名编码和URL编码等字段，以保护用户隐私。数据集不断更新，无固定划分，用户需根据需求和数据时间戳自行创建划分。数据集反映了X平台上的内容和观点，可能包含社会影响和偏见。

使用方法

用户可利用该数据集进行情感分析、趋势检测、内容分析和用户行为建模等任务。由于数据质量可能因去中心化收集和预处理而有所波动，且可能包含社交媒体平台典型的噪声、垃圾邮件或无关内容，用户在使用时应考虑这些局限性。同时，数据集仅限于公共推文，不包括私人账户或直接消息。

背景与挑战

背景概述

x_dataset_39数据集，隶属于Bittensor Subnet 13分布式网络，收集并整合了来自X（原Twitter）平台的预处理数据。该数据集持续更新，由网络矿工负责维护，为用户提供实时推文流，以支持各类分析和机器学习任务。该数据集的创建旨在深入研究社交媒体动态，并推动创新应用的发展。自2025年起，该数据集已由futuremoon团队维护，并在遵循X平台服务条款和API使用指南的前提下，对公开推文进行收集。

当前挑战

在构建x_dataset_39数据集的过程中，研究人员面临了多方面的挑战。首先，由于数据的去中心化收集和预处理，数据质量可能存在波动。其次，数据中可能包含社交媒体平台常见的噪音、垃圾信息和无关内容。此外，实时收集方法可能导致时间偏差，且数据集仅限于公开推文，不包括私人账户或直接消息。在使用该数据集时，还需注意潜在的社会影响和偏见问题，包括人口统计和内容偏见。

常用场景

经典使用场景

在社会科学与计算社会科学研究中，x_dataset_39数据集作为一种多语言、多元化的社交媒体数据集，其经典使用场景主要集中于情感分析、主题分类、命名实体识别、语言模型训练、文本评分等多种文本处理任务。该数据集提供了实时更新的推文流，使得研究人员能够捕捉并分析社会热点事件、用户情绪波动以及话题发展趋势。

衍生相关工作

基于x_dataset_39数据集，研究者们衍生出了一系列相关工作，包括构建更为复杂的情感分析模型、分析社交媒体上的信息扩散网络、以及研究特定话题如健康、政治、社会事件的传播特征等。这些工作不仅推动了社交媒体数据分析领域的发展，也为相关政策的制定和优化提供了科学依据。

数据集最近研究