five

Twitter数据集列表|社交媒体分析数据集|情感分析数据集

收藏
github2024-04-30 更新2024-05-31 收录
社交媒体分析
情感分析
下载链接:
https://github.com/Mightyflavor/list-of-large-twitter-datasets-for-twitter-sentiment-analysis-using-big-data-techniques
下载链接
链接失效反馈
资源简介:
本仓库收集了一系列大型公开可用的Twitter数据集,特别适合用于情感分析和其他类型的分析任务。这里提供的资源包含带有情感极性(正面、负面、中性)或其他情感维度的标签的推文,适用于各种研究兴趣,并以不同的格式提供,方便在您的情感分析项目中使用。

This repository compiles a series of large-scale, publicly available Twitter datasets, particularly well-suited for sentiment analysis and other types of analytical tasks. The resources provided here include tweets labeled with sentiment polarity (positive, negative, neutral) or other emotional dimensions, catering to a wide range of research interests. These datasets are available in various formats, facilitating their use in your sentiment analysis projects.
创建时间:
2024-04-30
原始信息汇总

数据集概述

数据集列表

推特数据集

  1. US 2016 election tweets - Mega Link

  2. Bitcoin tweets - 16M tweets without sentiments tagged

  3. Bitcoin tweets - 16M tweets With Sentiment Tagged

  4. TwitterStream - Largest Open-Source Tweets Dataset

  5. Coronavirus (covid19) Tweets

  6. WHO tweets dataset

    • 链接:WHO tweets dataset
    • 描述:一个多语言数据集,总计近7GB,主要包含与WHO相关的中性推文。
  7. COVID-19 : Twitter Dataset Of 100+ Million Tweets

  8. Twitter News Dataset

    • 链接:Twitter News Dataset
    • 描述:自2020年1月起,使用“新闻”作为搜索参数从推特上抓取的推文集合。
AI搜集汇总
数据集介绍
main_image_url
构建方式
该Twitter数据集列表的构建方式主要通过收集和整理多个公开的Twitter数据集,涵盖了不同主题和时间段。这些数据集通过网络爬虫技术从Twitter平台抓取,并经过标注或未标注的情感极性处理。例如,部分数据集如比特币推文和COVID-19相关推文,已被标注为正面、负面或中性情感,而其他数据集则保留了原始推文内容,供研究者自行分析。所有数据集均遵循MIT开源许可证,确保了数据的合法性和可用性。
特点
该Twitter数据集列表的特点在于其多样性和规模。数据集涵盖了多个热门话题,如2016年美国大选、比特币、COVID-19疫情等,且每个数据集的规模均超过3GB,适合使用大数据技术进行分析。此外,数据集的格式多样,包括JSON、CSV等,便于不同研究需求的使用。部分数据集已预先标注情感极性,为情感分析研究提供了便利,而其他数据集则保留了原始推文,为更广泛的分析任务提供了可能性。
使用方法
该Twitter数据集列表的使用方法灵活多样。研究者可以根据具体研究需求选择合适的数据集,下载后进行情感分析、主题建模、趋势预测等多种分析任务。对于已标注情感的数据集,可以直接用于情感分析模型的训练和验证;对于未标注的数据集,研究者可以自行标注或使用无监督学习方法进行分析。此外,数据集的多样格式支持多种编程语言和数据处理工具,如Python、R等,便于研究者进行数据清洗、特征提取和模型构建。
背景与挑战
背景概述
Twitter数据集列表是一个专门为情感分析和其他类型分析任务而精心策划的大型Twitter数据集集合。该数据集由多个研究人员和机构共同贡献,涵盖了从2016年至今的多个重要事件和话题,如美国2016年大选、比特币、COVID-19疫情等。这些数据集不仅标注了情感极性(正面、负面、中性),还提供了多种格式的数据,便于研究人员在情感分析项目中使用。该数据集的创建旨在为从事Twitter数据情感分析的研究人员和实践者提供一个一站式资源,极大地推动了社交媒体数据分析领域的发展。
当前挑战
尽管Twitter数据集列表为情感分析提供了丰富的资源,但在构建和使用过程中仍面临诸多挑战。首先,数据集的规模庞大,处理和存储这些数据需要高效的分布式计算和存储技术。其次,情感标注的准确性是一个关键问题,不同标注者的主观性可能导致标注结果的不一致。此外,数据集的多样性和时效性要求研究人员不断更新和扩展数据集,以适应不断变化的研究需求。最后,隐私和伦理问题也是使用社交媒体数据时必须考虑的重要因素,如何在保护用户隐私的同时进行有效的数据分析是一个亟待解决的挑战。
常用场景
经典使用场景
Twitter数据集列表在情感分析领域中具有广泛的应用,尤其适用于大规模情感分析任务。通过这些数据集,研究者和实践者能够对推文进行情感极性(如正面、负面、中性)的分类,从而深入理解公众在特定事件或话题上的情感倾向。例如,2016年美国大选推文数据集可用于分析选民对候选人的情感态度,而比特币推文数据集则有助于研究市场情绪对加密货币价格的影响。
实际应用
在实际应用中,Twitter数据集列表被广泛用于舆情监控、市场分析和危机管理等领域。例如,政府和非政府组织可以利用COVID-19相关推文数据集进行疫情舆情监测,及时了解公众对防疫措施的反应。企业则可以通过分析比特币推文数据集,预测市场趋势,优化投资策略。这些应用不仅提高了决策的科学性,还增强了社会应对突发事件的能力。
衍生相关工作
基于Twitter数据集列表,研究者们开展了多项经典工作。例如,有学者利用2016年美国大选推文数据集,研究社交媒体在政治传播中的作用,揭示了社交媒体对选举结果的影响。此外,COVID-19相关推文数据集催生了大量关于疫情传播与公众情绪关系的研究,为公共卫生政策的制定提供了重要参考。这些衍生工作不仅丰富了情感分析的理论体系,还为相关领域的实践提供了有力支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

data

食神オリジナルデータ

github 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

Houston2013, Berlin, Augsburg

本研究发布了三个多模态遥感基准数据集:Houston2013(高光谱和多光谱数据)、Berlin(高光谱和合成孔径雷达数据)和Augsburg(高光谱、合成孔径雷达和数字表面模型数据)。这些数据集用于土地覆盖分类,旨在通过共享和特定特征学习模型(S2FL)评估多模态基线。数据集包含不同模态和分辨率的图像,适用于评估和开发新的遥感图像处理技术。

arXiv 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

LEVIR-CD

LEVIR-CD 是一个新的大规模遥感建筑变化检测数据集。引入的数据集将成为评估变化检测 (CD) 算法的新基准,尤其是基于深度学习的算法。 LEVIR-CD 由 637 个非常高分辨率(VHR,0.5m/像素)Google Earth (GE) 图像块对组成,大小为 1024 × 1024 像素。这些时间跨度为 5 到 14 年的双时相图像具有显着的土地利用变化,尤其是建筑增长。 LEVIR-CD涵盖别墅住宅、高层公寓、小型车库和大型仓库等各类建筑。在这里,我们关注与建筑相关的变化,包括建筑增长(从土壤/草地/硬化地面或在建建筑到新建筑区域的变化)和建筑衰退。这些双时相图像由遥感图像解释专家使用二进制标签(1 表示变化,0 表示不变)进行注释。我们数据集中的每个样本都由一个注释器进行注释,然后由另一个注释器进行双重检查以产生高质量的注释。完整注释的 LEVIR-CD 总共包含 31,333 个单独的变更构建实例。

OpenDataLab 收录