five

x_dataset_57071

收藏
Hugging Face2025-01-30 更新2025-02-10 收录
下载链接:
https://huggingface.co/datasets/rainbowbridge/x_dataset_57071
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Bittensor Subnet 13去中心化网络的一部分,包含来自X(前身为Twitter)的预处理数据。数据由网络矿工持续更新,提供实时的推文流,适用于各种分析和机器学习任务。数据集主要包含英文内容,但也可能包含多语言内容。数据集的结构包括推文文本、标签、推文中的标签、发布时间、编码的用户名和编码的URL。数据集的使用需注意潜在的偏见和限制,如数据质量、噪声和时态偏差。数据集遵循MIT许可证,并需遵守X的使用条款。
创建时间:
2025-01-27
原始信息汇总

数据集概述

数据集信息

  • 名称: Bittensor Subnet 13 X (Twitter) Dataset
  • 存储库: rainbowbridge/x_dataset_57071
  • 子网: Bittensor Subnet 13
  • 矿工热点密钥: 5F2S4Xnn1UqWXhWmdu1kgfeu1ZpFoQEYbxF8oCNpRHnMZNar
  • 许可证: MIT
  • 语言: 主要为英语,但由于去中心化的创建方式,可能为多语言
  • 总实例数: 38,314,331
  • 日期范围: 2025-01-21至2025-02-04
  • 最后更新: 2025-02-10

数据集描述

该数据集是Bittensor Subnet 13去中心化网络的一部分,包含来自X(前Twitter)的预处理数据。数据由网络矿工持续更新,为各种分析和机器学习任务提供实时推文流。

支持的任务

  • 文本分类
  • 令牌分类
  • 问题回答
  • 摘要
  • 文本生成

具体任务ID

  • 情感分析
  • 主题分类
  • 命名实体识别
  • 语言建模
  • 文本评分
  • 多类别分类
  • 多标签分类
  • 提取式问答
  • 新闻文章摘要

数据集结构

数据实例字段

  • text: 推文的主要内容
  • label: 推文的情感或主题类别
  • tweet_hashtags: 推文中使用的标签列表
  • datetime: 推文发布日期
  • username_encoded: 经过编码的用户名,以保护用户隐私
  • url_encoded: 推文中包含的URL的编码版本

数据拆分

数据集持续更新,没有固定的拆分。用户应根据需求和数据的时间戳创建自己的拆分。

使用数据的注意事项

  • 考虑到社交影响和偏见
  • 数据质量可能因去中心化的收集和预处理而有所不同
  • 数据集可能包含社交平台典型的噪声、垃圾邮件或不相关内容
  • 时间偏差可能存在,因为数据是实时收集的
  • 数据集仅限于公开推文,不包括私人账户或直接消息
  • 不是所有推文都包含标签或URL

版权信息

数据集在MIT许可下发布。使用此数据集也受到X服务条款的约束。

引用信息

@misc{rainbowbridge2025datauniversex_dataset_57071, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={rainbowbridge}, year={2025}, url={https://huggingface.co/datasets/rainbowbridge/x_dataset_57071}, }

数据统计

  • 推文带标签比例: 45.74%
  • 推文不带标签比例: 54.26%
  • 前10大标签及占比
排名 主题 总计数 百分比
1 NULL 20,790,565 54.26%
2 #riyadh 281,003 0.73%
3 #zelena 220,527 0.58%
4 #tiktok 171,165 0.45%
5 #bbb25 102,659 0.27%
6 #ad 100,989 0.26%
7 #jhope_at_galadespiècesjaunes 67,704 0.18%
8 #granhermano 55,367 0.14%
9 #trump 52,213 0.14%
10 #pr 51,996 0.14%
搜集汇总
数据集介绍
main_image_url
构建方式
x_dataset_57071数据集构建于Bittensor Subnet 13网络中,该网络通过去中心化的数据采集方式,从X(原Twitter)平台收集并预处理数据。数据集持续更新,由网络矿工提供实时推文流,以供多样化的分析和机器学习任务使用。
特点
本数据集具备多语言特性,以英语为主,但因去中心化的创建方式,亦包含其他语言。其支持多种任务类别,如文本分类、命名实体识别、语言模型构建等,并具有实时更新、多样化的推文内容等特点。数据集在保护用户隐私方面做了特别处理,对用户名和URL进行了编码。
使用方法
用户在使用该数据集时,可根据需求和数据时间戳自行创建数据划分。由于数据集的实时更新特性,用户需注意数据质量可能存在波动,并可能包含社交媒体平台常见的噪音、垃圾信息或无关内容。在使用时,还应考虑潜在的社交影响和偏见问题。
背景与挑战
背景概述
x_dataset_57071数据集,作为Bittensor Subnet 13分布式网络的一部分,收集了来自X(前Twitter)的预处理数据。该数据集自2025年起,由网络矿工持续更新,为各种分析和机器学习任务提供实时推文流。该数据集的主要研究人员或机构为rainbowbridge,其核心研究问题涉及社交网络的动态分析、情感分析、趋势检测等内容,对社交媒体数据挖掘和自然语言处理领域产生了显著影响。
当前挑战
该数据集在构建和应用过程中面临的挑战包括:确保数据质量的一致性,由于数据是去中心化收集和预处理,可能存在数据噪声、垃圾邮件或无关内容;处理社交媒体数据中的固有偏见,如 demographic 和 content biases;此外,数据集的实时性可能导致时间偏见,且仅限于公开推文,不包括私人账户或直接消息。
常用场景
经典使用场景
x_dataset_57071作为源自Twitter的社交网络数据集,其经典使用场景主要集中于文本分类、命名实体识别、情感分析等自然语言处理领域。研究人员可以借助该数据集,对推文内容进行情感倾向性判断,识别推文中的主题类别,或是抽取关键实体信息,从而深入探索社交媒体中的用户行为模式与内容趋势。
解决学术问题
该数据集解决了社交媒体数据研究中关于实时性、多样性与隐私保护的挑战。它为学术研究提供了实时更新的数据流,有助于研究者捕捉最新的社交媒体动态,同时通过编码用户名和URLs来保护用户隐私。此外,该数据集也助力于解决文本数据中的噪声与偏差问题,为研究提供了丰富的多标签与多类别的标注数据。
衍生相关工作
基于x_dataset_57071,研究者们衍生出了众多相关工作,如情感分析模型、社交媒体影响力评估工具、以及用于监测特定事件或话题的仪表板。这些工作不仅扩展了数据集的应用范围,也推动了社交媒体数据分析领域的发展,为理解网络舆论与用户行为提供了新的视角与方法论。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作