five

x_dataset_41

收藏
Hugging Face2025-05-05 更新2025-05-06 收录
下载链接:
https://huggingface.co/datasets/James096/x_dataset_41
下载链接
链接失效反馈
官方服务:
资源简介:
Bittensor Subnet 13 X (Twitter) 数据集是Bittensor Subnet 13网络的一部分,包含来自X(Twitter)平台经过预处理的公共推文数据。这些数据由网络矿工实时更新,可用于多种自然语言处理任务。数据集以推文为单位,包含文本、标签、hashtags、发布日期和编码的用户名及URL等信息。数据集支持多种语言,主要是英语,但也可能是多语言的。
创建时间:
2025-05-05
原始信息汇总

Bittensor Subnet 13 X (Twitter) 数据集概述

基本信息

  • 许可证: MIT
  • 多语言支持: 多语言
  • 数据来源: 原始数据
  • 任务类别:
    • 文本分类
    • 标记分类
    • 问答
    • 摘要
    • 文本生成
  • 任务ID:
    • 情感分析
    • 主题分类
    • 命名实体识别
    • 语言建模
    • 文本评分
    • 多类分类
    • 多标签分类
    • 抽取式问答
    • 新闻文章摘要

数据集描述

  • 存储库: James096/x_dataset_41
  • 子网: Bittensor Subnet 13
  • 矿工热键: 5HYc8dZUqD2AxZT43nw6pdbQnF7xrfpSNkFfrYKNGEjxg242

数据集摘要

该数据集是Bittensor Subnet 13去中心化网络的一部分,包含来自X(前Twitter)的预处理数据。数据由网络矿工持续更新,提供实时推文流,适用于各种分析和机器学习任务。

支持的任务

  • 情感分析
  • 趋势检测
  • 内容分析
  • 用户行为建模

语言

主要语言为英语,但由于去中心化的创建方式,可能包含多语言内容。

数据结构

数据实例

每个实例代表一条推文。

数据字段

  • text (字符串): 推文的主要内容。
  • label (字符串): 推文的情感或主题类别。
  • tweet_hashtags (列表): 推文中使用的标签列表。可能为空。
  • datetime (字符串): 推文发布的日期。
  • username_encoded (字符串): 用户名的编码版本,以保护隐私。
  • url_encoded (字符串): 推文中包含的URL的编码版本。可能为空。

数据分割

数据集持续更新,没有固定分割。用户应根据需求和时间戳创建自己的分割。

数据集创建

源数据

数据来自X(Twitter)的公开推文,遵循平台的服务条款和API使用指南。

个人和敏感信息

所有用户名和URL均经过编码以保护用户隐私。数据集不包含个人或敏感信息。

使用注意事项

社会影响和偏见

用户应注意X(Twitter)数据中可能存在的偏见,包括人口统计和内容偏见。

限制

  • 数据质量可能因去中心化收集和预处理而有所不同。
  • 数据集可能包含噪音、垃圾邮件或社交媒体平台常见的不相关内容。
  • 由于实时收集方法,可能存在时间偏差。
  • 数据集仅限于公开推文,不包括私人账户或直接消息。
  • 并非所有推文都包含标签或URL。

附加信息

许可信息

数据集在MIT许可下发布。使用此数据集还需遵守X的使用条款。

引用信息

@misc{James0962025datauniversex_dataset_41, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={James096}, year={2025}, url={https://huggingface.co/datasets/James096/x_dataset_41}, }

贡献

如需报告问题或贡献数据集,请联系矿工或使用Bittensor Subnet 13治理机制。

数据集统计

  • 总实例数: 4553
  • 日期范围: 2019-02-26T00:00:00Z 至 2025-05-05T00:00:00Z
  • 最后更新时间: 2025-05-05T13:29:48Z

数据分布

  • 带标签的推文: 10.85%
  • 无标签的推文: 89.15%

前10大标签

排名 主题 总数 百分比
1 #defi 48 9.72%
2 #bitcoin 41 8.30%
3 #crypto 40 8.10%
4 #btc 14 2.83%
5 #nknusdt 10 2.02%
6 #web3 9 1.82%
7 #sui 8 1.62%
8 #rwa 7 1.42%
9 #bittensor 7 1.42%
10 #altcoins 7 1.42%

更新历史

日期 新实例数 总实例数
2025-05-04T19:06:54Z 4059 4059
2025-05-04T19:07:31Z 431 4490
2025-05-05T13:29:48Z 63 4553
搜集汇总
数据集介绍
main_image_url
构建方式
作为社交网络分析领域的重要资源,x_dataset_41数据集采用去中心化网络架构构建,通过Bittensor子网13的矿工节点实时采集并预处理X平台(原Twitter)的公开推文数据。数据采集严格遵循平台服务条款和API使用规范,所有用户名和URL均经过编码处理以保护用户隐私,确保符合数据合规要求。数据集采用动态更新机制,时间跨度覆盖2019至2025年,形成持续演化的社交媒体语料库。
特点
该数据集展现出多维度特征:文本字段包含原始推文内容及情感标签,元数据涵盖时间戳、编码后用户信息和主题标签分布。值得注意的是,约10.85%的推文包含主题标签,其中#defi、#bitcoin等加密货币相关标签占比显著,反映了特定社群的讨论热点。数据具有典型的社交媒体特性,包含自然语言噪声和实时性特征,为研究网络传播规律提供了真实场景样本。
使用方法
研究者可通过HuggingFace平台直接加载数据集,建议按时间戳划分训练验证集以应对数据流特性。该数据集支持文本分类、实体识别、情感分析等多类NLP任务,尤其适合研究加密货币社群动态。使用前需注意数据可能存在的时间偏差和领域偏移,建议结合统计文件中标注的主题分布进行任务适配。根据MIT许可要求,使用时需同时遵守X平台原始条款。
背景与挑战
背景概述
x_dataset_41数据集由Bittensor Subnet 13去中心化网络于2025年推出,旨在为研究人员提供来自X(原Twitter)平台的实时社交媒体数据。该数据集由Macrocosm OS团队主导开发,通过分布式矿工网络持续更新,覆盖了2019年至2025年的公开推文。其多任务设计支持文本分类、实体识别、问答系统等NLP核心任务,尤其为加密货币和Web3领域的社会化行为分析提供了独特视角。作为首个基于区块链架构的社交媒体数据集,其去中心化采集模式突破了传统数据集的时空局限性,对计算社会科学研究范式产生了深远影响。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,社交媒体的动态特性导致情感分析和趋势检测任务需应对语义漂移、网络用语变异等干扰;稀疏标注(仅10.85%含主题标签)与实时数据流的矛盾,加剧了监督学习模型的训练难度。在构建过程中,去中心化采集机制引发数据异构性问题,包括预处理标准不一致、采样时间偏差显著(如加密货币话题过度集中),且隐私保护措施(用户名编码)与用户行为分析的细粒度需求形成固有冲突。此外,平台API限制使得数据覆盖度存在先天缺陷,无法获取删除内容或非公开互动信息。
常用场景
经典使用场景
在社交媒体分析领域,x_dataset_41数据集因其丰富的文本内容和多维度标注,成为研究社交媒体动态的经典工具。该数据集特别适用于情感分析和趋势检测任务,通过分析推文内容及其标注信息,研究者能够深入理解公众情绪波动和社会热点演变规律。数据集的多语言特性进一步拓展了跨文化比较研究的可能性。
实际应用
在实际应用层面,x_dataset_41数据集为商业智能和舆情监控提供了重要数据基础。市场营销机构可通过分析推文情感倾向优化广告策略,而政府部门则能借助趋势检测功能及时掌握社会动态。数据集中的加密货币相关标签尤其为金融科技领域的市场分析提供了独特视角。
衍生相关工作
基于该数据集的经典研究包括社交媒体情感极性分析算法改进、跨平台话题传播模式比较等。在自然语言处理领域,多项关于短文本分类和命名实体识别的研究都采用了该数据集作为基准测试集。其去中心化的采集方式也启发了新型社交媒体数据治理框架的探讨。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作