x_dataset_27221
收藏Hugging Face2025-01-30 更新2025-02-10 收录
下载链接:
https://huggingface.co/datasets/hshwk1983/x_dataset_27221
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Bittensor Subnet 13去中心化网络的一部分,包含来自X(前身为Twitter)的预处理数据。数据由网络矿工持续更新,提供实时的推文数据流,适用于各种分析和机器学习任务。数据集支持多种任务,如情感分析、趋势检测、内容分析和用户行为建模等。数据集中主要包含推文的文本内容、标签、使用的标签、发布时间、编码后的用户名和URL等信息。数据集的结构包括数据实例、数据字段和数据分割等信息。数据集的创建遵循X的条款和服务使用指南,所有用户名和URL都被编码以保护用户隐私。数据集的使用需要考虑社交媒体数据的潜在偏见和限制,如数据质量、噪声、时间偏见等。数据集发布在MIT许可证下,使用时需遵守X的使用条款。
创建时间:
2025-01-27
原始信息汇总
Bittensor Subnet 13 X (Twitter) Dataset
数据集描述
- 存储库: hshwk1983/x_dataset_27221
- 子网: Bittensor Subnet 13
- 矿工热键: 5HozLaXwAyioW1oEwf6zAysEyyGXcCifVwCeYiz6SKvSrm52
数据集概要
该数据集是Bittensor Subnet 13去中心化网络的一部分,包含来自X(前Twitter)的预处理数据。数据由网络矿工持续更新,为各种分析和机器学习任务提供实时推文流。
支持的任务
- 文本分类
- 令牌分类
- 问题回答
- 摘要
- 文本生成
具体任务ID
- 情感分析
- 主题分类
- 命名实体识别
- 语言建模
- 文本评分
- 多类分类
- 多标签分类
- 提取式问答
- 新闻文章摘要
语言
主要语言:数据集主要是英文,但由于去中心化的创建方式,可能是多语言的。
数据集结构
数据实例
每个实例代表一条推文,包含以下字段:
text(字符串):推文的主要内容。label(字符串):推文的情感或主题类别。tweet_hashtags(列表):推文中使用的标签列表。如果没有标签,可能为空。datetime(字符串):推文发布日期。username_encoded(字符串):用户名的编码版本,以保护用户隐私。url_encoded(字符串):推文中包含的URL的编码版本。如果没有URL,可能为空。
数据拆分
该数据集持续更新,没有固定的拆分。用户应根据需求和数据的时间戳创建自己的拆分。
数据创建
来源数据
数据从X(Twitter)上的公共推文中收集,遵守平台的服务条款和API使用指南。
个人和敏感信息
所有用户名和URL都进行了编码,以保护用户隐私。数据集不故意包含个人或敏感信息。
使用数据的注意事项
社会影响和偏见
用户应注意X(Twitter)数据中固有的潜在偏见,包括人口统计和内容偏见。该数据集反映了X上表达的内容和观点,不应被视为一般人群的代表样本。
局限性
- 数据质量可能因去中心化的收集和预处理方式而有所不同。
- 数据集可能包含社交媒体平台典型的噪声、垃圾邮件或不相关内容。
- 由于实时收集方法,可能存在时间偏见。
- 数据集仅限于公共推文,不包括私人账户或直接消息。
- 不是所有推文都包含标签或URL。
许可信息
数据集根据MIT许可发布。使用此数据集还受X服务条款的约束。
引用信息
如果在研究中使用此数据集,请以下列方式引用:
@misc{hshwk19832025datauniversex_dataset_27221, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={hshwk1983}, year={2025}, url={https://huggingface.co/datasets/hshwk1983/x_dataset_27221}, }
数据集统计
- 总实例数: 33396436
- 日期范围: 2025-01-21至2025-02-04
- 最后更新: 2025-02-10
数据分布
- 带标签的推文:27.72%
- 无标签的推文:72.28%
前10大标签
| 排名 | 主题 | 总计数 | 百分比 |
|---|---|---|---|
| 1 | NULL | 24139744 | 72.28% |
| 2 | #riyadh | 151466 | 0.45% |
| 3 | #zelena | 136426 | 0.41% |
| 4 | #jhope_at_galadespiècesjaunes | 96558 | 0.29% |
| 5 | #tiktok | 92929 | 0.28% |
| 6 | #bbb25 | 61056 | 0.18% |
| 7 | #ad | 57762 | 0.17% |
| 8 | #royalrumble | 45184 | 0.14% |
| 9 | #precure | 44915 | 0.13% |
| 10 | #bbmzansi | 37342 | 0.11% |
更新历史
| 日期 | 新实例数 | 总实例数 |
|---|---|---|
| 2025-01-27 | 3242408 | 3242408 |
| 2025-01-30 | 6911604 | 10154012 |
| 2025-02-03 | 9565243 | 19719255 |
| 2025-02-06 | 5208295 | 24927550 |
| 2025-02-10 | 8468886 | 33396436 |
搜集汇总
数据集介绍

构建方式
x_dataset_27221数据集,作为Bittensor Subnet 13的一部分,采集自X(原Twitter)平台。该数据集通过去中心化的网络矿工持续更新,遵循平台的服务条款和API使用指南,对公开推文进行预处理,实现了对推文的实时流获取,以服务于多种机器学习和分析任务。
特点
本数据集具有多语言特性,以英语为主,支持多种任务类别,包括文本分类、标记分类、问答、摘要和文本生成等。其支持的特定任务如情感分析、主题分类、命名实体识别等,使该数据集在社交媒体动态分析及创新应用开发方面展现出高度的多样性。此外,数据集通过编码用户名和URL来保护用户隐私,并实时更新,无固定划分,用户可根据需求和时间戳自行创建数据划分。
使用方法
在使用x_dataset_27221数据集时,用户应遵循MIT许可证的规定,并注意X平台的使用条款。考虑到数据质量可能因去中心化收集和预处理而存在波动,用户在使用时需注意数据中可能存在的噪音、垃圾信息和无关内容。同时,应对社交媒体数据的潜在偏见和时间偏差保持警觉,并确保数据的合理使用,避免侵犯隐私。
背景与挑战
背景概述
x_dataset_27221数据集,作为Bittensor Subnet 13分布式网络的一部分,收集并整合了来自X(前Twitter)的预处理数据。该数据集自2025年起,由网络矿工持续更新,为各类分析和机器学习任务提供了实时推文流。该数据集的构建,旨在探索社交媒体动态,并促进创新应用的开发。其主要研究人员或机构为hshwk1983,数据集的多样性使其在情感分析、趋势检测、内容分析和用户行为建模等任务中展现出广泛的应用潜力。
当前挑战
该数据集在构建和应用过程中面临的挑战包括:数据质量因去中心化收集和预处理方式而存在波动;可能包含社交媒体平台特有的噪声、垃圾邮件或无关内容;存在时间偏差,因数据是实时收集的;数据集仅限于公开推文,不包括私人账户或直接消息;此外,数据集可能反映X平台上的偏见,包括人口统计和内容偏见,这要求研究者在使用数据时需谨慎处理潜在的偏差问题。
常用场景
经典使用场景
在当今信息化社会,x_dataset_27221作为源自Twitter的实时社交媒体数据集,其经典使用场景主要集中于情感分析、话题分类、命名实体识别、语言模型训练、文本评分等多重任务。该数据集支持研究人员对社交媒体的动态进行深入分析,以及构建创新性应用,如情绪追踪、趋势预测和用户行为建模等。
解决学术问题
该数据集解决了学术研究中关于社交媒体内容分析的一系列问题,包括但不限于情绪识别的准确性、话题分类的全面性以及命名实体识别的精确度。它为研究提供了丰富的数据资源,有助于提升自然语言处理技术的效能,推动社交媒体数据分析领域的发展。
衍生相关工作
基于x_dataset_27221,衍生出了一系列相关的研究工作,如情绪分析模型的优化、社交媒体影响力的量化评估、用户行为模式的分析等,这些研究进一步扩展了数据集的应用范围,并推动了相关领域的学术讨论和技术进步。
以上内容由遇见数据集搜集并总结生成



