x_dataset_44
收藏Bittensor Subnet 13 X (Twitter) Dataset
数据集描述
- 仓库: Axel232/x_dataset_44
- 子网: Bittensor Subnet 13
- 矿工热键: 0
数据集概述
该数据集是Bittensor Subnet 13去中心化网络的一部分,包含从X(原Twitter)预处理的数据。数据由网络矿工持续更新,提供各种分析和机器学习任务的实时推文流。
支持的任务
该数据集的多功能性允许研究人员和数据科学家探索社交媒体动态的各个方面,并开发创新的应用程序。用户可以利用这些数据进行以下任务:
- 情感分析
- 趋势检测
- 内容分析
- 用户行为建模
语言
主要语言:数据集主要是英语,但由于去中心化的创建方式,也可能是多语言的。
数据集结构
数据实例
每个实例代表一条推文,包含以下字段:
数据字段
text(字符串): 推文的主要内容。label(字符串): 推文的情感或主题类别。tweet_hashtags(列表): 推文中使用的标签列表。如果没有标签,则为空。datetime(字符串): 推文的发布日期。username_encoded(字符串): 用户名的编码版本,以保护用户隐私。url_encoded(字符串): 推文中包含的URL的编码版本。如果没有URL,则为空。
数据分割
该数据集持续更新,没有固定的分割。用户应根据其需求和数据的时间戳创建自己的分割。
数据集创建
源数据
数据从X(Twitter)上的公开推文中收集,遵守平台的条款服务和API使用指南。
个人和敏感信息
所有用户名和URL都经过编码以保护用户隐私。数据集不包含个人或敏感信息。
使用数据的注意事项
社会影响和偏见
用户应注意X(Twitter)数据中可能存在的偏见,包括人口统计和内容偏见。该数据集反映了X上表达的内容和意见,不应被视为一般人口的代表性样本。
限制
- 由于收集和预处理的去中心化性质,数据质量可能有所不同。
- 数据集可能包含噪音、垃圾邮件或与社交媒体平台相关的无关内容。
- 由于实时收集方法,可能存在时间偏差。
- 数据集仅限于公开推文,不包括私人账户或直接消息。
- 并非所有推文都包含标签或URL。
附加信息
许可信息
该数据集在MIT许可下发布。使用此数据集还需遵守X的使用条款。
引用信息
如果您在研究中使用此数据集,请按如下方式引用:
@misc{Axel2322024datauniversex_dataset_44, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={Axel232}, year={2024}, url={https://huggingface.co/datasets/Axel232/x_dataset_44}, }
贡献
如需报告问题或为数据集做出贡献,请联系矿工或使用Bittensor Subnet 13治理机制。
数据集统计
- 总实例数: 10971
- 日期范围: 2019-07-24T00:00:00Z 至 2024-12-11T00:00:00Z
- 最后更新: 2024-12-13T09:42:58Z
数据分布
- 带标签的推文: 10.71%
- 不带标签的推文: 89.29%
前10个标签
| 排名 | 主题 | 总数 | 百分比 |
|---|---|---|---|
| 1 | #btc | 182 | 15.49% |
| 2 | #tao | 120 | 10.21% |
| 3 | #bitcoin | 112 | 9.53% |
| 4 | #ukraine | 85 | 7.23% |
| 5 | #crypto | 47 | 4.00% |
| 6 | #cryptocurrency | 25 | 2.13% |
| 7 | #defi | 20 | 1.70% |
| 8 | #bittensor | 18 | 1.53% |
| 9 | #ikigai | 13 | 1.11% |
| 10 | #trump | 10 | 0.85% |
更新历史
| 日期 | 新增实例 | 总实例数 |
|---|---|---|
| 2024-12-03T19:49:45Z | 9796 | 9796 |
| 2024-12-03T19:49:48Z | 1171 | 10967 |
| 2024-12-13T09:42:58Z | 4 | 10971 |




