SenWave

Name: SenWave
Creator: 清华大学
Published: 2025-10-09 21:38:05
License: 暂无描述

arXiv2025-10-09 更新2025-10-11 收录

下载链接：

https://github.com/twintproject/twint

下载链接

链接失效反馈

官方服务：

资源简介：

SenWave数据集是一个针对COVID-19推文进行细粒度多语言情感分析的数据集，包含5种语言（英语、西班牙语、法语、阿拉伯语、意大利语）的10种情感类别。数据集包括10,000条英文和阿拉伯文标注推文，以及30,000条从英文推文翻译而来的西班牙文、法文和意大利文推文，此外还包含超过1.05亿条未标注的推文。数据集的创建过程包括数据收集、数据标注和数据增强。SenWave数据集旨在解决现有情感分析数据集在标注数据不足和情感标签粗糙等问题，为研究复杂事件中的细粒度情感分析提供支持。

The SenWave dataset is a fine-grained multilingual sentiment analysis dataset focused on COVID-19-related tweets, covering 10 sentiment categories across 5 languages: English, Spanish, French, Arabic, and Italian. It includes 10,000 annotated tweets in English and Arabic, as well as 30,000 Spanish, French and Italian tweets translated from English tweets. Additionally, it contains over 105 million unannotated tweets. The creation of the SenWave dataset involves three stages: data collection, data annotation and data augmentation. The SenWave dataset is designed to address the shortcomings of existing sentiment analysis datasets, such as insufficient labeled data and overly coarse sentiment labels, and to support research on fine-grained sentiment analysis in complex event contexts.

提供机构：

清华大学

创建时间：

2025-10-09

原始信息汇总

TWINT - Twitter Intelligence Tool 数据集概述

数据集基本信息

名称：TWINT - Twitter Intelligence Tool
类型：Twitter数据采集工具
编程语言：Python
许可证：未明确说明（但包含许可证标识）
最新版本：通过PyPI发布

核心功能

无需身份验证、API或限制的Twitter数据采集
从Twitter个人资料抓取推文
使用Twitter搜索运算符进行高级搜索
支持从特定用户、主题、标签和趋势中抓取推文
可提取推文中的敏感信息（如电子邮件和电话号码）
支持抓取用户关注者、喜欢的推文和关注列表

技术优势

可获取几乎所有推文（Twitter API仅限最近3200条）
快速初始设置
支持匿名使用，无需Twitter注册
无速率限制

系统要求

Python 3.6及以上版本
依赖包：aiohttp、aiodns、beautifulsoup4、cchardet、dataclasses、elasticsearch、pysocks、pandas（≥0.23.0）、aiohttp_socks、schedule、geopy、fake-useragent、py-googletransx

安装方式

Git克隆安装
Pip安装
Pipenv安装
Docker安装（2021年3月2日新增）

数据采集功能

基础采集

用户推文采集（不包括转推，包括回复）
关键词搜索采集
时间范围采集
地理位置采集

高级采集

关注者信息采集
关注列表采集
收藏推文采集
用户完整信息采集
时间线采集（包括转推和回复）

数据存储格式

文本文件
CSV格式
JSON格式
SQLite数据库
Elasticsearch

特殊功能

推文翻译（实验性功能）
图形可视化
桌面应用程序开发中

使用限制

Twitter在浏览用户时间线时施加滚动限制
使用.Profile或.Favorites最多可获取约3200条推文

技术支持

详细命令说明位于项目wiki
模块使用说明位于项目wiki
Elasticsearch设置说明位于项目wiki
图形功能说明位于项目wiki
问题讨论渠道：OSINT team的Twint专用频道

搜集汇总

数据集介绍

构建方式

在公共卫生危机背景下，SenWave数据集通过多阶段流程构建而成。研究团队利用Twint开源爬虫系统，采集了2020年3月至5月期间涉及COVID-19主题的五种语言推文，形成包含1.05亿条未标注数据的原始语料。标注阶段采用专家指导的多轮标注机制，由52名训练有素的标注者对随机抽取的1万条英文和1万条阿拉伯文推文进行独立标注，通过多数投票机制确定最终标签。数据增强环节借助谷歌翻译工具将英文标注数据转化为西班牙语、法语和意大利语版本，并通过回译验证确保翻译质量。

使用方法

该数据集支持多层次研究应用。在模型训练层面，研究者可基于标注数据微调Transformer架构的预训练模型，实现多标签情感分类任务。对于未标注的大规模语料，可通过训练完成的分类模型进行情感演化分析，追踪不同语言、国家和主题维度下的情绪动态变化。数据集还适用于少样本学习场景，经ChatGPT验证在零样本和少样本设置下均能有效捕捉复杂情感。此外，其多标签标注机制为研究情感共现关系提供了丰富的数据基础。

背景与挑战

背景概述

SenWave数据集于2025年由阿卜杜拉国王科技大学与圣母大学等机构联合构建，聚焦于新冠疫情背景下社交媒体情感分析的精细化需求。该数据集采集了涵盖英语、阿拉伯语、西班牙语、法语和意大利语的多语言推文，包含2万条人工标注数据及1.05亿条未标注数据，创新性地定义了乐观、感恩、共情等十类细粒度情感标签。作为首个针对突发公共卫生事件的多语言细粒度情感数据集，其通过Transformer架构的预训练模型实现了对复杂情感演变的深度追踪，为公共卫生政策制定和危机管理提供了数据支撑。

当前挑战

在领域问题层面，传统情感分析方法难以捕捉疫情中官方通报、反讽等复杂情感维度，而现有数据集普遍存在标注粒度粗糙、标签适配性不足的缺陷。构建过程中面临三重挑战：多语言语境下文化差异导致的情感表达歧义需通过专业标注团队解决；推文多标签共现现象加剧了分类模型的设计复杂度；数据采集时段集中于疫情初期，难以全面覆盖情感演变的完整周期。

常用场景

经典使用场景

在公共卫生危机监测领域，SenWave数据集通过其细粒度多语言标注特性，为研究者提供了分析社交媒体情绪演变的独特视角。该数据集最典型的应用场景在于追踪COVID-19大流行期间全球公众情绪的时空变化，研究者可借助其10类情感标签和多语言覆盖优势，深入探索不同文化背景下民众对疫情的政策反应、信息传播和情感波动模式。这种细粒度分析能力使得SenWave成为研究危机事件中公众心理动态的重要工具。

解决学术问题

SenWave有效解决了社交媒体情感分析中存在的两大核心学术难题：传统情感标签的粗粒度局限与多语言数据标注的稀缺性。通过引入“官方报告”“讽刺调侃”“感恩致谢”等情境化标签，该数据集突破了传统三分类情感模型的框架，为复杂公共卫生事件中的情感建模提供了更精准的标注体系。同时其涵盖英语、阿拉伯语等五种语言的平行标注数据，为跨语言情感分析研究奠定了坚实基础。

实际应用

在公共卫生管理实践中，SenWave数据集展现出显著的应用价值。政府部门可通过分析数据集中的情感演变规律，及时调整疫情防控策略；医疗机构能够依据公众焦虑情绪的时空分布，优化心理援助资源的配置。研究证明，该数据集成功捕捉到不同国家民众对经济刺激政策、疫苗研发进展等关键议题的情感反馈，为危机时期的公共政策制定提供了数据支撑。

数据集最近研究