five

x_dataset_99

收藏
Hugging Face2025-06-22 更新2025-06-23 收录
下载链接:
https://huggingface.co/datasets/jasonmoore92/x_dataset_99
下载链接
链接失效反馈
官方服务:
资源简介:
Bittensor Subnet 13 X(Twitter)数据集是Bittensor Subnet 13网络的一部分,包含来自X(前Twitter)的实时更新的预处理推文数据。适用于情感分析、趋势检测、内容分析和用户行为建模等多种机器学习任务。数据集主要是英文的,也可能包含多语言内容。每个数据实例包括推文文本、标签、话题标签、发布日期和编码后的用户名与URL。
创建时间:
2025-06-22
原始信息汇总

Bittensor Subnet 13 X (Twitter) Dataset 概述

基本信息

  • 许可证: MIT
  • 多语言支持: 多语言
  • 数据来源: 原始数据
  • 任务类别:
    • 文本分类
    • 标记分类
    • 问答系统
    • 摘要生成
    • 文本生成
  • 任务ID:
    • 情感分析
    • 主题分类
    • 命名实体识别
    • 语言建模
    • 文本评分
    • 多类分类
    • 多标签分类
    • 抽取式问答
    • 新闻文章摘要

数据集描述

  • 存储库: jasonmoore92/x_dataset_99
  • 子网: Bittensor Subnet 13
  • 矿工热键: 5HExeZnAtgPEXxuim5VaCU6HfPqofYHEe7vdxPFX9V4456Jk

数据集摘要

该数据集是Bittensor Subnet 13去中心化网络的一部分,包含来自X(前Twitter)的预处理数据。数据由网络矿工持续更新,提供实时的推文流,适用于各种分析和机器学习任务。

支持的任务

  • 情感分析
  • 趋势检测
  • 内容分析
  • 用户行为建模

语言

主要语言为英语,但由于去中心化的创建方式,可能包含多语言内容。

数据集结构

数据实例

每个实例代表一条推文,包含以下字段:

  • text (字符串): 推文的主要内容。
  • label (字符串): 推文的情感或主题类别。
  • tweet_hashtags (列表): 推文中使用的标签列表。如果没有标签,可能为空。
  • datetime (字符串): 推文发布的日期。
  • username_encoded (字符串): 用户名的编码版本,以保护用户隐私。
  • url_encoded (字符串): 推文中包含的URL的编码版本。如果没有URL,可能为空。

数据拆分

该数据集持续更新,没有固定的拆分。用户应根据自己的需求和数据的时间戳创建自己的拆分。

数据集创建

源数据

数据来自X(Twitter)上的公开推文,遵循平台的条款和服务以及API使用指南。

个人和敏感信息

所有用户名和URL均经过编码以保护用户隐私。数据集不包含故意添加的个人或敏感信息。

使用注意事项

社会影响和偏见

用户应注意X(Twitter)数据中潜在的偏见,包括人口统计和内容偏见。该数据集反映了X上表达的内容和观点,不应被视为一般人群的代表样本。

局限性

  • 数据质量可能因去中心化的收集和预处理方式而有所不同。
  • 数据集可能包含社交媒体平台典型的噪声、垃圾邮件或不相关内容。
  • 由于实时收集方法,可能存在时间偏差。
  • 数据集仅限于公开推文,不包括私人账户或直接消息。
  • 并非所有推文都包含标签或URL。

附加信息

许可证信息

数据集根据MIT许可证发布。使用该数据集还需遵守X的使用条款。

引用信息

如果研究中使用该数据集,请按以下方式引用:

@misc{jasonmoore922025datauniversex_dataset_99, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={jasonmoore92}, year={2025}, url={https://huggingface.co/datasets/jasonmoore92/x_dataset_99}, }

贡献

如需报告问题或贡献数据集,请联系矿工或使用Bittensor Subnet 13治理机制。

数据集统计

  • 总实例数: 228880
  • 日期范围: 2014-04-06T00:00:00Z 至 2025-06-22T00:00:00Z
  • 最后更新时间: 2025-06-22T15:23:35Z

数据分布

  • 带标签的推文: 4.94%
  • 无标签的推文: 95.06%

前10个标签

排名 主题 总数 百分比
1 NULL 26080 69.74%
2 #mlb 585 1.56%
3 #f1 544 1.45%
4 #gobetaverse 484 1.29%
5 #nfl 476 1.27%
6 #football 444 1.19%
7 #nba 406 1.09%
8 #ufc 392 1.05%
9 #motogp 281 0.75%
10 #cricket 242 0.65%

更新历史

日期 新实例数 总实例数
2025-06-21T21:10:20Z 191486 191486
2025-06-21T21:10:43Z 29724 221210
2025-06-22T15:23:35Z 7670 228880
搜集汇总
数据集介绍
main_image_url
构建方式
在社交媒体分析领域,x_dataset_99数据集通过Bittensor Subnet 13去中心化网络构建,采用实时更新的方式收集并预处理来自X平台的公开推文。数据采集严格遵守平台服务条款与API使用规范,所有用户名和URL均经过编码处理以保护用户隐私。该数据集采用动态更新机制,由网络矿工持续维护,确保数据时效性与多样性。
特点
作为多任务适配的社交媒体语料库,x_dataset_99涵盖文本分类、实体识别等七大NLP任务类别,其核心价值在于实时反映社交网络动态。数据集包含22万条时间跨度逾十年的推文实例,每条数据包含文本内容、情感标签、话题标签等六个结构化字段,其中4.94%的推文带有话题标签,体育类标签占据高频词前列。多语言特性与隐私保护机制使其兼具研究广度与合规性。
使用方法
研究者可通过HuggingFace平台直接加载该数据集进行探索性分析,建议根据时间戳自定义数据划分以适配不同研究需求。鉴于社交媒体的固有偏差,使用前需进行数据清洗和偏差检测。该数据集特别适合训练实时舆情监测模型,其多任务标注体系支持端到端的跨任务迁移学习,但需注意不含标签的推文需通过半监督方法处理。MIT许可协议允许学术与商业用途,但需遵守X平台附加条款。
背景与挑战
背景概述
x_dataset_99是由Bittensor Subnet 13去中心化网络构建的多语言社交媒体数据集,主要采集自X(原Twitter)平台的公开推文。该数据集由jasonmoore92等研究人员于2025年发布,依托Macrocosmos生态系统,旨在为自然语言处理任务提供实时更新的社交媒体数据资源。其核心研究问题聚焦于社交媒体文本的多维度分析,涵盖情感分析、主题分类、命名实体识别等十余项NLP任务,为社交计算和网络舆情研究提供了重要数据支撑。该数据集采用分布式采集模式,通过区块链技术确保数据来源的可追溯性,体现了去中心化科学(DeSci)理念在数据采集领域的创新应用。
当前挑战
该数据集面临的主要挑战体现在两个维度:在领域问题层面,社交媒体文本固有的噪声数据、非正式表达和潜在偏见对情感分析等任务的模型鲁棒性提出严峻考验;动态演变的网络用语和话题分布要求算法具备持续学习能力。在构建过程层面,去中心化采集导致的数据质量异质性需要复杂清洗流程;隐私保护要求与数据实用性的平衡使匿名化处理面临技术挑战;实时更新机制引入的时序偏差可能影响纵向研究;多语言文本的混合分布对语言识别和跨语言建模提出特殊要求。此外,平台API限制和网络爬虫策略变化也为数据采集的可持续性带来不确定性。
常用场景
经典使用场景
在社交媒体分析领域,x_dataset_99数据集以其丰富的文本内容和实时更新的特性,成为研究社交网络动态的重要资源。该数据集最经典的使用场景包括情感分析和趋势检测,研究者通过分析推文中的情感倾向和热门话题,揭示公众舆论的演变规律和社会热点的发展轨迹。
衍生相关工作
基于x_dataset_99数据集,学术界已衍生出多项经典研究。其中包括利用迁移学习提升小语种情感分析性能的创新方法,以及结合图神经网络建模社交传播路径的突破性工作。这些成果不仅拓展了数据集的应用边界,更为社交媒体挖掘领域树立了新的研究范式。
数据集最近研究
最新研究方向
随着社交媒体数据的爆炸性增长,x_dataset_99数据集在自然语言处理领域展现出广泛的应用前景。该数据集以其多语言特性和实时更新的特点,为情感分析、趋势检测和用户行为建模等任务提供了丰富的研究素材。特别是在去中心化网络环境下,研究者们正探索如何利用该数据集进行跨平台内容分析,以揭示社交媒体中的信息传播规律和用户互动模式。与此同时,该数据集在隐私保护方面的设计也为社交网络数据的安全使用提供了参考。近期研究热点集中在结合大语言模型进行细粒度情感分类,以及利用时序数据分析社会事件的演变过程。这些研究不仅推动了计算社会科学的发展,也为企业舆情监控和公共政策制定提供了数据支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作