Open datasets for sentiment analysis

github2024-05-19 更新2024-05-31 收录

下载链接：

https://github.com/charlesmalafosse/open-dataset-for-sentiment-analysis

下载链接

链接失效反馈

官方服务：

资源简介：

基于英语、西班牙语、法语、德语和意大利语推文的情感分析开源数据集，包含不同语言的推文及其情感标签。

An open-source dataset for sentiment analysis based on tweets in English, Spanish, French, German, and Italian, containing tweets in various languages along with their sentiment labels.

创建时间：

2019-09-12

原始信息汇总

数据集概述

数据集名称

Open datasets for sentiment analysis

数据集内容

语言支持：英语、西班牙语、法语、意大利语、德语
数据类型：推文及其情感分析结果

数据集详细信息

英语推文数据集：
- 总量：6.3百万条推文
- 子集：
  - betsentiment-EN-tweets-players: 273MB, 1.9百万行
  - betsentiment-EN-tweets-teams: 519MB, 3.5百万行
  - betsentiment-EN-tweets-worldcup: 128MB, 943.2千行
西班牙语推文数据集：
- 总量：1.2百万条推文
- 子集：
  - betsentiment-ES-tweets-teams: 20MB, 132.7千行
  - betsentiment-ES-tweets-worldcup: 136MB, 1.1百万行
法语推文数据集：
- 总量：25万条推文
- 子集：
  - betsentiment-FR-tweets-teams: 10MB, 62.9千行
  - betsentiment-FR-tweets-worldcup: 27MB, 191.5千行
意大利语推文数据集：
- 总量：42.5万条推文
- 子集：
  - betsentiment-IT-tweets-players: 24MB, 165.8千行
  - betsentiment-IT-tweets-teams: 38MB, 259.6千行
德语推文数据集：
- 总量：21万条推文
- 子集：
  - betsentiment-DE-tweets-players: 16MB, 101.7千行
  - betsentiment-DE-tweets-teams: 16MB, 109.0千行

数据收集与处理

收集时间：2018年5月至9月
情感分析工具：AWS Comprehend API
翻译工具：Google Translate（西班牙语和法语推文）

数据格式与存储

文件格式：CSV
压缩格式：ZIP
文件大小限制：大于25MB的文件被分割成小文件

许可证

使用许可：MIT License
免责声明：数据免费提供，不提供任何保证

搜集汇总

数据集介绍

构建方式

该数据集的构建基于2018年5月至9月期间通过Twitter API收集的推文，涵盖了英语、西班牙语、法语、意大利语和德语五种语言。为了生成情感标签，使用了AWS Comprehend API进行情感分析。对于西班牙语和法语的推文，首先通过Google Translate翻译成英语，然后再使用AWS Comprehend进行情感分类。情感标签分为正面、负面、中性或混合四种类型。数据以CSV格式存储，部分大型文件通过7zip进行了分割。

特点

该数据集的主要特点在于其多语言覆盖和大规模的数据量。英语推文数据集包含630万条推文，而其他语言如西班牙语、法语、意大利语和德语也分别提供了数十万至百万条不等的推文。此外，数据集的情感分类细致，涵盖了正面、负面、中性和混合四种情感类型，为情感分析研究提供了丰富的资源。

使用方法

数据集以CSV格式提供，用户可以直接下载并解压缩使用。每条推文占据一行，情感标签与推文内容一一对应。用户可以通过编程语言如Python加载CSV文件，进行数据清洗、预处理和情感分析模型的训练。此外，数据集的README文件中提供了使用指南和相关文章链接，帮助用户更好地理解和应用该数据集。

背景与挑战

背景概述

情感分析作为自然语言处理领域的重要分支，近年来在社交媒体文本分析中展现出巨大的应用潜力。Open datasets for sentiment analysis数据集由Charles Malafosse创建，旨在填补多语言情感分析数据集的空白。该数据集包含了2018年5月至9月期间通过Twitter API收集的推文，涵盖英语、西班牙语、法语、意大利语和德语五种语言，总计超过800万条推文。通过AWS Comprehend API进行情感标注，并采用Google Translate对非英语推文进行翻译处理，最终将情感分类为正面、负面、中性或混合。这一数据集的发布为多语言情感分析研究提供了丰富的资源，推动了相关领域的技术进步。

当前挑战

该数据集在构建过程中面临多重挑战。首先，多语言数据的收集与处理增加了复杂性，尤其是非英语推文的翻译与情感分析的准确性问题。其次，大规模数据的存储与分发也是一个技术难题，尤其是对超过25MB的文件进行分割处理。此外，情感分类的细粒度问题，如如何区分中性与混合情感，以及不同语言间的情感表达差异，都是该数据集在使用过程中需要克服的挑战。这些问题的解决不仅提升了数据集的质量，也为后续研究提供了宝贵的经验。

常用场景

经典使用场景

在情感分析领域，Open datasets for sentiment analysis 数据集因其多语言特性及大规模数据量而备受瞩目。该数据集包含了英语、西班牙语、法语、意大利语和德语的推文，涵盖了从体育赛事到全球性事件的广泛话题。研究者可以利用这些数据进行跨语言情感分析模型的训练与验证，尤其是在处理多语言文本时，该数据集提供了宝贵的资源。

衍生相关工作

基于该数据集，研究者已开展了多项经典工作，包括跨语言情感分析模型的开发、多语言情感迁移学习以及情感分析在特定领域（如体育赛事）的应用研究。这些工作不仅提升了情感分析技术的准确性，还为多语言文本处理提供了新的思路和方法，进一步推动了自然语言处理领域的研究进展。

数据集最近研究