five

x_dataset_63681

收藏
Hugging Face2025-01-30 更新2025-02-10 收录
下载链接:
https://huggingface.co/datasets/LadyMia/x_dataset_63681
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Bittensor Subnet 13去中心化网络的一部分,包含来自X(前身为Twitter)的预处理数据。数据由网络矿工持续更新,提供实时的推文流,适用于各种分析和机器学习任务。数据集支持多种任务,如情感分析、趋势检测、内容分析和用户行为建模等。每个数据实例代表一条推文,包含推文内容、标签、使用的标签、发布时间、编码后的用户名和编码后的URL。数据集的主要语言为英语,但也可能包含多语言内容。数据集的使用需注意潜在的社会影响和偏见,以及数据质量的波动。数据集遵循MIT许可证,并需遵守X的使用条款。
创建时间:
2025-01-27
原始信息汇总

Bittensor Subnet 13 X (Twitter) Dataset

数据集描述

  • 名称: Bittensor Subnet 13 X (Twitter) Dataset
  • 存储库: LadyMia/x_dataset_63681
  • 子网: Bittensor Subnet 13
  • 矿工热键: 5FLQ2zTJFawJ5H9QcYBF4xjn8rmwo4t2dQvcTJoc5Yp6y78g

数据集概要

该数据集是Bittensor Subnet 13去中心化网络的一部分,包含来自X(前Twitter)的预处理数据。该数据由网络矿工持续更新,为各种分析和机器学习任务提供实时推文流。

支持的任务

  • 文本分类
  • 令牌分类
  • 问题回答
  • 摘要
  • 文本生成

任务ID

  • 情感分析
  • 主题分类
  • 命名实体识别
  • 语言建模
  • 文本评分
  • 多类别分类
  • 多标签分类
  • 提取式问答
  • 新闻文章摘要

语言

主要语言为英语,但由于去中心化的创建方式,数据集可能是多语言的。

数据集结构

数据实例

每个实例代表一条推文,包含以下字段:

  • text (字符串): 推文的主要内容。
  • label (字符串): 推文的情感或主题分类。
  • tweet_hashtags (列表): 推文中使用的标签列表。
  • datetime (字符串): 推文发布日期。
  • username_encoded (字符串): 用户名的编码版本,以保护用户隐私。
  • url_encoded (字符串): 推文中包含的URL的编码版本。

数据拆分

该数据集持续更新,没有固定的拆分。用户应根据需求和数据的时间戳创建自己的拆分。

数据创建

来源数据

数据从X(Twitter)上的公共推文中收集,遵守平台的条款服务和API使用指南。

个人和敏感信息

所有用户名和URL都被编码,以保护用户隐私。数据集不故意包含个人或敏感信息。

使用数据的注意事项

社会影响和偏见

用户应注意X(Twitter)数据中固有的潜在偏见,包括人口统计和内容偏见。该数据集反映了X上表达的内容和观点,不应被视为一般人群的代表样本。

局限性

  • 数据质量可能因收集和预处理的去中心化特性而有所不同。
  • 数据集可能包含社交媒体平台典型的噪声、垃圾邮件或不相关信息。
  • 由于实时收集方法,可能存在时间偏见。
  • 数据集仅限于公共推文,不包括私人账户或直接消息。
  • 不是所有推文都包含标签或URL。

其他信息

授权信息

该数据集根据MIT许可发布。

引用信息

@misc{LadyMia2025datauniversex_dataset_63681, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={LadyMia}, year={2025}, url={https://huggingface.co/datasets/LadyMia/x_dataset_63681}, }

数据统计

  • 总实例数: 34,673,887
  • 日期范围: 2025-01-21T00:00:00Z 至 2025-02-04T00:00:00Z
  • 最后更新: 2025-02-10T00:06:08Z

数据分布

  • 带标签的推文: 39.26%
  • 不带标签的推文: 60.74%

前10个标签

排名 主题 总数 百分比
1 NULL 21,060,457 60.74%
2 #riyadh 271,054 0.78%
3 #zelena 172,354 0.50%
4 #tiktok 134,241 0.39%
5 #bbb25 122,615 0.35%
6 #grammys 90,488 0.26%
7 #ad 81,950 0.24%
8 #jhope_at_galadespiècesjaunes 63,971 0.18%
9 #transferlerlebirliktezafere 55,578 0.16%
10 #trump 47,568 0.14%

更新历史

日期 新实例 总实例
2025-01-26T23:54:38Z 3,520,437 3,520,437
2025-01-30T11:57:23Z 8,047,508 11,567,945
2025-02-03T00:00:05Z 7,826,465 19,394,410
2025-02-06T12:02:58Z 7,474,028 26,868,438
2025-02-10T00:06:08Z 7,805,449 34,673,887
搜集汇总
数据集介绍
main_image_url
构建方式
x_dataset_63681数据集是基于Bittensor Subnet 13网络构建的,该网络从X(原Twitter)平台收集并预处理数据。数据集通过去中心化的网络矿工持续更新,确保了数据实时性的同时,也为多样化的机器学习和分析任务提供了丰富的资源。
特点
该数据集的显著特点在于其实时更新机制,涵盖了广泛的社交媒体动态,并支持多语言处理。它包含的推文数据具有多样性,适用于情感分析、主题分类、命名实体识别、语言建模等多种任务。同时,数据集中的用户名和URL均经过编码处理,以保护用户隐私。
使用方法
用户在使用该数据集时,应根据具体需求和时间戳来创建数据划分。数据集遵循MIT许可证发布,使用时还需遵守X平台的使用条款。在使用数据集的过程中,用户需注意潜在的偏见和社交影响,同时考虑到数据质量可能因去中心化收集和预处理而存在波动。
背景与挑战
背景概述
x_dataset_63681数据集,隶属于Bittensor Subnet 13去中心化网络,采集自X(原Twitter)平台,包含预处理后的实时推文数据,旨在支持各种分析和机器学习任务。该数据集由网络矿工持续更新,具备多语言特性,以英语为主。其创建背景源于对社交媒体动态的深入探索,以及对创新应用的开发需求。LadyMia是该数据集的主要贡献者,数据集的创建时间为2025年,其研究背景聚焦于社交媒体数据的多元化应用,对自然语言处理领域产生了显著影响。
当前挑战
该数据集在构建过程中面临的主要挑战包括:确保数据实时更新与质量控制的平衡,处理社交媒体平台特有的噪声和垃圾信息,以及处理时间偏差问题。此外,数据集的多元化和多语言特性也为数据标注和分类带来了挑战。在研究领域问题方面,x_dataset_63681数据集旨在解决情感分析、主题分类、命名实体识别等文本分类任务,而这些任务的挑战在于如何提高模型的准确性和泛化能力。
常用场景
经典使用场景
在当前信息爆炸的时代背景下,x_dataset_63681数据集作为Bittensor Subnet 13网络中的一部分,其经典使用场景主要集中于社交媒体内容分析。该数据集提供了实时更新的推文流,支持如情感分析、主题分类、命名实体识别等多种任务,为研究人员和工程师提供了一种有效的方式来分析和理解Twitter上的用户行为和内容趋势。
解决学术问题
该数据集解决了社交媒体研究中数据采集和处理的一致性、时效性以及多样性等问题。它为学术研究提供了丰富的多语言文本资源,有助于探索语言模型、多类别和多标签分类等领域的难题,进而推动情感分析、趋势检测以及内容分析等研究方向的发展。
衍生相关工作
基于x_dataset_63681数据集,已衍生出多项相关工作,如社交媒体影响力分析、用户画像构建、以及针对特定话题或事件的深度分析。这些研究不仅加深了对社交媒体生态的理解,也为社交媒体数据的商业化应用提供了新的视角和方法论。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作