x_dataset_99

Hugging Face2025-06-22 更新2025-06-23 收录

下载链接：

https://huggingface.co/datasets/jasonmoore92/x_dataset_99

下载链接

链接失效反馈

官方服务：

资源简介：

Bittensor Subnet 13 X（Twitter）数据集是Bittensor Subnet 13网络的一部分，包含来自X（前Twitter）的实时更新的预处理推文数据。适用于情感分析、趋势检测、内容分析和用户行为建模等多种机器学习任务。数据集主要是英文的，也可能包含多语言内容。每个数据实例包括推文文本、标签、话题标签、发布日期和编码后的用户名与URL。

创建时间：

2025-06-22

原始信息汇总

Bittensor Subnet 13 X (Twitter) Dataset 概述

基本信息

许可证: MIT
多语言支持: 多语言
数据来源: 原始数据
任务类别:
- 文本分类
- 标记分类
- 问答系统
- 摘要生成
- 文本生成
任务ID:
- 情感分析
- 主题分类
- 命名实体识别
- 语言建模
- 文本评分
- 多类分类
- 多标签分类
- 抽取式问答
- 新闻文章摘要

数据集描述

存储库: jasonmoore92/x_dataset_99
子网: Bittensor Subnet 13
矿工热键: 5HExeZnAtgPEXxuim5VaCU6HfPqofYHEe7vdxPFX9V4456Jk

数据集摘要

该数据集是Bittensor Subnet 13去中心化网络的一部分，包含来自X（前Twitter）的预处理数据。数据由网络矿工持续更新，提供实时的推文流，适用于各种分析和机器学习任务。

支持的任务

情感分析
趋势检测
内容分析
用户行为建模

语言

主要语言为英语，但由于去中心化的创建方式，可能包含多语言内容。

数据集结构

数据实例

每个实例代表一条推文，包含以下字段：

text (字符串): 推文的主要内容。
label (字符串): 推文的情感或主题类别。
tweet_hashtags (列表): 推文中使用的标签列表。如果没有标签，可能为空。
datetime (字符串): 推文发布的日期。
username_encoded (字符串): 用户名的编码版本，以保护用户隐私。
url_encoded (字符串): 推文中包含的URL的编码版本。如果没有URL，可能为空。

数据拆分

该数据集持续更新，没有固定的拆分。用户应根据自己的需求和数据的时间戳创建自己的拆分。

数据集创建

源数据

数据来自X（Twitter）上的公开推文，遵循平台的条款和服务以及API使用指南。

个人和敏感信息

所有用户名和URL均经过编码以保护用户隐私。数据集不包含故意添加的个人或敏感信息。

使用注意事项

社会影响和偏见

用户应注意X（Twitter）数据中潜在的偏见，包括人口统计和内容偏见。该数据集反映了X上表达的内容和观点，不应被视为一般人群的代表样本。

局限性

数据质量可能因去中心化的收集和预处理方式而有所不同。
数据集可能包含社交媒体平台典型的噪声、垃圾邮件或不相关内容。
由于实时收集方法，可能存在时间偏差。
数据集仅限于公开推文，不包括私人账户或直接消息。
并非所有推文都包含标签或URL。

附加信息

许可证信息

数据集根据MIT许可证发布。使用该数据集还需遵守X的使用条款。

引用信息

如果研究中使用该数据集，请按以下方式引用：

@misc{jasonmoore922025datauniversex_dataset_99, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={jasonmoore92}, year={2025}, url={https://huggingface.co/datasets/jasonmoore92/x_dataset_99}, }

贡献

如需报告问题或贡献数据集，请联系矿工或使用Bittensor Subnet 13治理机制。

数据集统计

总实例数: 228880
日期范围: 2014-04-06T00:00:00Z 至 2025-06-22T00:00:00Z
最后更新时间: 2025-06-22T15:23:35Z

数据分布

带标签的推文: 4.94%
无标签的推文: 95.06%

前10个标签

排名	主题	总数	百分比
1	NULL	26080	69.74%
2	#mlb	585	1.56%
3	#f1	544	1.45%
4	#gobetaverse	484	1.29%
5	#nfl	476	1.27%
6	#football	444	1.19%
7	#nba	406	1.09%
8	#ufc	392	1.05%
9	#motogp	281	0.75%
10	#cricket	242	0.65%

更新历史

日期	新实例数	总实例数
2025-06-21T21:10:20Z	191486	191486
2025-06-21T21:10:43Z	29724	221210
2025-06-22T15:23:35Z	7670	228880

搜集汇总

数据集介绍

构建方式

在社交媒体分析领域，x_dataset_99数据集通过Bittensor Subnet 13去中心化网络构建，采用实时更新的方式收集并预处理来自X平台的公开推文。数据采集严格遵守平台服务条款与API使用规范，所有用户名和URL均经过编码处理以保护用户隐私。该数据集采用动态更新机制，由网络矿工持续维护，确保数据时效性与多样性。

特点

作为多任务适配的社交媒体语料库，x_dataset_99涵盖文本分类、实体识别等七大NLP任务类别，其核心价值在于实时反映社交网络动态。数据集包含22万条时间跨度逾十年的推文实例，每条数据包含文本内容、情感标签、话题标签等六个结构化字段，其中4.94%的推文带有话题标签，体育类标签占据高频词前列。多语言特性与隐私保护机制使其兼具研究广度与合规性。

使用方法

研究者可通过HuggingFace平台直接加载该数据集进行探索性分析，建议根据时间戳自定义数据划分以适配不同研究需求。鉴于社交媒体的固有偏差，使用前需进行数据清洗和偏差检测。该数据集特别适合训练实时舆情监测模型，其多任务标注体系支持端到端的跨任务迁移学习，但需注意不含标签的推文需通过半监督方法处理。MIT许可协议允许学术与商业用途，但需遵守X平台附加条款。

背景与挑战

背景概述

x_dataset_99是由Bittensor Subnet 13去中心化网络构建的多语言社交媒体数据集，主要采集自X（原Twitter）平台的公开推文。该数据集由jasonmoore92等研究人员于2025年发布，依托Macrocosmos生态系统，旨在为自然语言处理任务提供实时更新的社交媒体数据资源。其核心研究问题聚焦于社交媒体文本的多维度分析，涵盖情感分析、主题分类、命名实体识别等十余项NLP任务，为社交计算和网络舆情研究提供了重要数据支撑。该数据集采用分布式采集模式，通过区块链技术确保数据来源的可追溯性，体现了去中心化科学(DeSci)理念在数据采集领域的创新应用。

当前挑战

该数据集面临的主要挑战体现在两个维度：在领域问题层面，社交媒体文本固有的噪声数据、非正式表达和潜在偏见对情感分析等任务的模型鲁棒性提出严峻考验；动态演变的网络用语和话题分布要求算法具备持续学习能力。在构建过程层面，去中心化采集导致的数据质量异质性需要复杂清洗流程；隐私保护要求与数据实用性的平衡使匿名化处理面临技术挑战；实时更新机制引入的时序偏差可能影响纵向研究；多语言文本的混合分布对语言识别和跨语言建模提出特殊要求。此外，平台API限制和网络爬虫策略变化也为数据采集的可持续性带来不确定性。

常用场景

经典使用场景

在社交媒体分析领域，x_dataset_99数据集以其丰富的文本内容和实时更新的特性，成为研究社交网络动态的重要资源。该数据集最经典的使用场景包括情感分析和趋势检测，研究者通过分析推文中的情感倾向和热门话题，揭示公众舆论的演变规律和社会热点的发展轨迹。

衍生相关工作

基于x_dataset_99数据集，学术界已衍生出多项经典研究。其中包括利用迁移学习提升小语种情感分析性能的创新方法，以及结合图神经网络建模社交传播路径的突破性工作。这些成果不仅拓展了数据集的应用边界，更为社交媒体挖掘领域树立了新的研究范式。

数据集最近研究