five

x_dataset_53989

收藏
Hugging Face2025-01-30 更新2025-02-10 收录
下载链接:
https://huggingface.co/datasets/littleGuagua/x_dataset_53989
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Bittensor Subnet 13去中心化网络的一部分,包含来自X(前Twitter)的预处理数据。数据由网络矿工持续更新,提供实时的推文流,适用于各种分析和机器学习任务。数据集支持多种任务,如情感分析、趋势检测、内容分析和用户行为建模。数据集以英语为主,但也可能包含多语言内容。每个数据实例代表一条推文,包含文本、标签、标签列表、发布时间、编码后的用户名和编码后的URL等字段。数据集持续更新,没有固定的数据分割。数据收集遵循X的条款和服务使用指南,所有用户名和URL都经过编码以保护用户隐私。数据集可能存在偏见和噪声,用户在使用时应注意这些局限性。数据集发布在MIT许可证下,使用时还需遵守X的使用条款。

This dataset is part of the Bittensor Subnet 13 decentralized network, and comprises preprocessed data sourced from X (formerly Twitter). The data is continuously updated by network miners, delivering real-time tweet streams suitable for diverse analytics and machine learning tasks. It supports a wide range of applications including sentiment analysis, trend detection, content analysis, and user behavior modeling. The dataset is primarily in English, but may also include multilingual content. Each data instance corresponds to a single tweet, containing fields such as text, hashtags, hashtag lists, publication timestamp, encoded usernames, and encoded URLs. The dataset is updated on an ongoing basis with no fixed data split. Data collection adheres to X's Terms of Service guidelines, and all usernames and URLs have been encoded to safeguard user privacy. The dataset may contain biases and noise, and users should take note of these limitations during usage. The dataset is released under the MIT License, and users must also comply with X's Terms of Service when utilizing it.
创建时间:
2025-01-26
原始信息汇总

Bittensor Subnet 13 X (Twitter) Dataset

数据集描述

  • 仓库名称: littleGuagua/x_dataset_53989
  • 子网: Bittensor Subnet 13
  • 数据挖掘者热键: 5G3uRzpBMfyix6R2ygX3fsWasZ8z1g4fAUwxRcu2BKKtFJwn

数据集概要

本数据集是Bittensor Subnet 13去中心化网络的一部分,包含来自X(前Twitter)的预处理数据。数据由网络挖掘者持续更新,为各种分析和机器学习任务提供实时推文流。

支持的任务

  • 文本分类
  • 令牌分类
  • 问题回答
  • 摘要
  • 文本生成

具体任务ID

  • 情感分析
  • 主题分类
  • 命名实体识别
  • 语言建模
  • 文本评分
  • 多类分类
  • 多标签分类
  • 提取式问答
  • 新闻文章摘要

语言

主要语言:数据集以英语为主,但由于去中心化的创建方式,可能包含多语言。

数据集结构

数据实例

每个实例代表一条推文,包含以下字段:

  • text (字符串):推文的主要内容。
  • label (字符串):推文的情感或主题分类。
  • tweet_hashtags (列表):推文中使用的标签列表。如果没有标签,可能为空。
  • datetime (字符串):推文发布日期。
  • username_encoded (字符串):用户名的编码版本,以保护用户隐私。
  • url_encoded (字符串):推文中任何URL的编码版本。如果没有URL,可能为空。

数据拆分

本数据集持续更新,没有固定的拆分。用户应根据需求和数据的时间戳创建自己的拆分。

数据集创建

来源数据

数据从X(Twitter)上的公共推文中收集,遵守平台的条款服务和API使用指南。

个人和敏感信息

所有用户名和URL都已编码,以保护用户隐私。数据集不故意包含个人或敏感信息。

使用数据的注意事项

社会影响和偏见

用户应注意X(Twitter)数据中固有的潜在偏见,包括人口统计和内容偏见。此数据集反映的是X上表达的内容和观点,不应被视为总人口的一个代表性样本。

限制

  • 由于收集和预处理去中心化的性质,数据质量可能有所不同。
  • 数据集可能包含社交媒体平台典型的噪声、垃圾邮件或无关内容。
  • 由于实时收集方法,可能存在时间偏见。
  • 数据集仅限于公共推文,不包括私人账户或直接消息。
  • 不是所有推文都包含标签或URL。

其他信息

许可信息

数据集根据MIT许可发布。使用此数据集也需遵守X的使用条款。

引用信息

@misc{littleGuagua2025datauniversex_dataset_53989, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={littleGuagua}, year={2025}, url={https://huggingface.co/datasets/littleGuagua/x_dataset_53989}, }

数据统计

  • 总实例数: 40093305
  • 日期范围: 2025-01-21至2025-02-04
  • 最后更新: 2025-02-09

数据分布

  • 带标签的推文:45.28%
  • 不带标签的推文:54.72%

数据更新历史

日期 新增实例 总实例数
2025-01-26 2186612 2186612
2025-01-30 9340507 11527119
2025-02-02 9610701 21137820
2025-02-06 9485999 30623819
2025-02-09 9469486 40093305
搜集汇总
数据集介绍
main_image_url
构建方式
x_dataset_53989数据集隶属于Bittensor Subnet 13分布式网络,该数据集通过该网络中的矿工持续收集并预处理X(前Twitter)平台上的公开推文数据。数据收集过程严格遵循平台的服务条款及API使用指南,确保数据的合法性与合规性。
特点
该数据集具备多语言特性,以英语为主,支持多种自然语言处理任务,如文本分类、命名实体识别、问答和文本摘要等。数据实时更新,能够反映社交媒体的最新动态,适用于分析社交媒体生态和开发创新应用。同时,数据集通过编码用户名和URL来保护用户隐私。
使用方法
用户在使用该数据集时,应根据自身需求基于时间戳创建数据划分。数据集在遵循MIT协议的前提下,可供研究和商业用途。用户需注意数据可能存在的质量问题、噪音、垃圾信息以及时间偏差,同时在分析和应用结果时应考虑潜在的社交影响和偏见。
背景与挑战
背景概述
x_dataset_53989数据集,作为Bittensor Subnet 13网络的一部分,汇集了来自X(前Twitter)的预处理数据。该数据集的构建起始于2025年,由littleGuagua团队负责维护,旨在为研究者提供实时推文流以进行各种分析和机器学习任务。数据集支持多种任务,如情感分析、趋势检测、内容分析和用户行为建模等,其多语言特性使其在社交网络数据分析领域具有广泛的影响力。
当前挑战
尽管x_dataset_53989数据集提供了丰富的社交媒体分析资源,但在使用过程中仍面临诸多挑战。首先,数据质量因去中心化收集和预处理方式而可能存在波动;其次,数据中可能包含社交媒体平台常见的噪音、垃圾信息和无关内容;此外,数据收集方法的实时性可能导致时间偏差,且数据仅限于公开推文,不包括私人账户或直接消息。在使用该数据集时,还需注意潜在的社交影响和偏见问题。
常用场景
经典使用场景
在文本分类、命名实体识别、情感分析等自然语言处理任务中,x_dataset_53989数据集凭借其多语言特性及涵盖广泛的话题类别,成为研究人员的首选。该数据集包含了推文文本、情感或主题标签、时间戳等信息,使得它能够被广泛应用于社交媒体动态分析、用户行为建模等场景。
解决学术问题
x_dataset_53989数据集解决了社交媒体数据中的多语言处理、实时数据流分析和隐私保护等问题。它为学术研究提供了关于社交媒体内容、用户情绪和话题趋势的洞见,对于理解社会舆论、网络文化和用户行为模式具有重要意义。
衍生相关工作
基于x_dataset_53989数据集,研究者们衍生出了一系列相关工作,如情绪分析模型的构建、社交媒体影响力评估体系的开发以及话题演化模型的探索,这些研究进一步拓宽了社交媒体数据分析的深度和广度。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作