five

x_dataset_24589

收藏
Hugging Face2025-01-30 更新2025-02-10 收录
下载链接:
https://huggingface.co/datasets/hshwk1983/x_dataset_24589
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Bittensor Subnet 13去中心化网络的一部分,包含来自X(前Twitter)的预处理数据。数据由网络矿工持续更新,提供实时的推文流,适用于各种分析和机器学习任务。数据集支持多种任务,如情感分析、趋势检测、内容分析和用户行为建模。数据集主要包含英文数据,但也可能包含多语言内容。每个数据实例代表一条推文,包含文本、标签、推文标签、日期时间、编码用户名和编码URL等字段。数据集遵循X的API使用指南,并保护用户隐私。
创建时间:
2025-01-27
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称: Bittensor Subnet 13 X (Twitter) Dataset
  • 存储库: hshwk1983/x_dataset_24589
  • 子网: Bittensor Subnet 13
  • 矿工热键: 5Cd2cLDhDSPebzMYgFTUDpBsL1hmwYboabmWYV3G2eQ26jaC

数据集简介

本数据集是Bittensor Subnet 13去中心化网络的一部分,包含来自X(前Twitter)的预处理数据。数据由网络矿工持续更新,提供实时推文流以用于各种分析和机器学习任务。

支持的任务

  • 文本分类
  • 令牌分类
  • 问题回答
  • 摘要
  • 文本生成

具体任务包括:

  • 情感分析
  • 主题分类
  • 命名实体识别
  • 语言建模
  • 文本评分
  • 多类分类
  • 多标签分类
  • 提取式问答
  • 新闻文章摘要

数据集结构

数据实例

每个实例代表一条推文,包含以下字段:

  • text (string): 推文的主要内容。
  • label (string): 推文的情感或主题类别。
  • tweet_hashtags (list): 推文中使用的标签列表。
  • datetime (string): 推文发布日期。
  • username_encoded (string): 编码后的用户名,以保护用户隐私。
  • url_encoded (string): 推文中包含的URL的编码形式。

数据切分

数据集持续更新,没有固定的切分。用户应根据需求和数据的时间戳创建自己的切分。

数据来源

数据从X(Twitter)上的公开推文中收集,遵守平台的服务条款和API使用指南。

数据统计

  • 总实例数: 37134627
  • 日期范围: 2025-01-21至2025-02-05
  • 最后更新: 2025-02-10

数据分布

  • 带标签的推文: 48.63%
  • 不带标签的推文: 51.37%

前10个标签

排名 主题 总计数 百分比
1 NULL 19077383 51.37%
2 #riyadh 286929 0.77%
3 #zelena 237198 0.64%
4 #tiktok 174349 0.47%
5 #bbb25 139281 0.38%
6 #jhope_at_galadespiècesjaunes 123749 0.33%
7 #ad 103107 0.28%
8 #granhermano 70007 0.19%
9 #bbmzansi 57617 0.16%
10 #trump 53383 0.14%

更新历史

日期 新增实例数 总实例数
2025-01-27 4628890 4628890
2025-01-30 8280101 12908991
2025-02-03 9437268 22346259
2025-02-06 7692590 30038849
2025-02-10 7095778 37134627
搜集汇总
数据集介绍
main_image_url
构建方式
x_dataset_24589数据集构建于Bittensor Subnet 13网络,通过该网络中的矿工持续采集并预处理X平台(原Twitter)的公开推文数据。该数据集以分布式方式不断更新,为用户提供实时推文流,以支持各类分析和机器学习任务。
特点
本数据集具有多语言特性,以英语为主,涵盖了情感分析、主题分类、命名实体识别、语言模型构建、文本评分等多种任务类型。数据集不包含固定划分,用户可根据时间戳和自身需求创建数据子集。为保护用户隐私,所有用户名和URL信息均经过编码处理。
使用方法
用户在使用该数据集时,应自行根据需求进行数据切分。数据集适用于多种社交媒体动态分析以及创新应用开发。在使用数据时,需遵守X平台的使用条款,并在研究成果中引用数据集信息。同时,用户需注意数据可能存在的偏差和局限性。
背景与挑战
背景概述
x_dataset_24589数据集,作为Bittensor Subnet 13分布式网络的一部分,收集并整理了来自X(原Twitter)的预处理数据。该数据集自2025年起,由网络矿工持续更新,为研究者提供了实时推文流,以支持各种分析和机器学习任务。该数据集的创建旨在促进社交媒体动态的研究,并在情感分析、趋势检测、内容分析和用户行为建模等多个领域发挥重要作用。其多语言特性使得研究不仅局限于英语,也为多语言环境下的研究提供了可能。
当前挑战
在构建x_dataset_24589数据集的过程中,面临了多方面的挑战。首先,数据质量的不稳定性是主要问题之一,因其去中心化的收集和预处理特性,数据中可能包含噪声、垃圾信息和无关内容。其次,实时收集方法可能导致时间偏差,且数据集仅限于公开推文,不包括私人账户或直接消息。此外,数据集的使用者需要意识到潜在的社交媒体数据偏差,并在研究中谨慎处理。在确保用户隐私方面,所有用户名和URL都经过编码处理,以避免有意包含个人或敏感信息。
常用场景
经典使用场景
在当今信息化社会,社交媒体已成为数据挖掘和自然语言处理的宝贵资源。x_dataset_24589作为Bittensor Subnet 13网络的一部分,是一个集成了实时推文流的数据集,其经典使用场景主要围绕社交媒体数据的分析,如情感分析、话题分类、命名实体识别等任务,为研究社交媒体动态提供了丰富的数据基础。
衍生相关工作
基于x_dataset_24589,研究者可以进一步开展如情绪预测模型、社交媒体影响力分析等相关工作,推动社交媒体数据挖掘技术的发展和应用,衍生出更多具有社会价值和商业价值的研究成果。
数据集最近研究
最新研究方向
x_dataset_24589数据集作为Bittensor Subnet 13网络的一部分,其不断更新的特性为情感分析、趋势检测、内容分析和用户行为建模等研究领域提供了丰富的资源。近期,该数据集在前沿研究方向上,主要聚焦于社交媒体动态的多维度分析,尤其是对Twitter平台上信息传播机制的深入探究。研究者们利用此数据集,不仅能够捕捉到即时的公共话题讨论,还能对用户行为进行建模,以预测和评估社交媒体上的热点事件及其社会影响。这一研究方向的深入,对于理解网络舆情动态、优化信息传播策略具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作