five

Open datasets for sentiment analysis

收藏
github2024-05-19 更新2024-05-31 收录
下载链接:
https://github.com/charlesmalafosse/open-dataset-for-sentiment-analysis
下载链接
链接失效反馈
官方服务:
资源简介:
基于英语、西班牙语、法语、德语和意大利语推文的情感分析开源数据集,包含不同语言的推文及其情感标签。

An open-source dataset for sentiment analysis based on tweets in English, Spanish, French, German, and Italian, containing tweets in various languages along with their sentiment labels.
创建时间:
2019-09-12
原始信息汇总

数据集概述

数据集名称

  • Open datasets for sentiment analysis

数据集内容

  • 语言支持:英语、西班牙语、法语、意大利语、德语
  • 数据类型:推文及其情感分析结果

数据集详细信息

  • 英语推文数据集
    • 总量:6.3百万条推文
    • 子集
      • betsentiment-EN-tweets-players: 273MB, 1.9百万行
      • betsentiment-EN-tweets-teams: 519MB, 3.5百万行
      • betsentiment-EN-tweets-worldcup: 128MB, 943.2千行
  • 西班牙语推文数据集
    • 总量:1.2百万条推文
    • 子集
      • betsentiment-ES-tweets-teams: 20MB, 132.7千行
      • betsentiment-ES-tweets-worldcup: 136MB, 1.1百万行
  • 法语推文数据集
    • 总量:25万条推文
    • 子集
      • betsentiment-FR-tweets-teams: 10MB, 62.9千行
      • betsentiment-FR-tweets-worldcup: 27MB, 191.5千行
  • 意大利语推文数据集
    • 总量:42.5万条推文
    • 子集
      • betsentiment-IT-tweets-players: 24MB, 165.8千行
      • betsentiment-IT-tweets-teams: 38MB, 259.6千行
  • 德语推文数据集
    • 总量:21万条推文
    • 子集
      • betsentiment-DE-tweets-players: 16MB, 101.7千行
      • betsentiment-DE-tweets-teams: 16MB, 109.0千行

数据收集与处理

  • 收集时间:2018年5月至9月
  • 情感分析工具:AWS Comprehend API
  • 翻译工具:Google Translate(西班牙语和法语推文)

数据格式与存储

  • 文件格式:CSV
  • 压缩格式:ZIP
  • 文件大小限制:大于25MB的文件被分割成小文件

许可证

  • 使用许可:MIT License
  • 免责声明:数据免费提供,不提供任何保证
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于2018年5月至9月期间通过Twitter API收集的推文,涵盖了英语、西班牙语、法语、意大利语和德语五种语言。为了生成情感标签,使用了AWS Comprehend API进行情感分析。对于西班牙语和法语的推文,首先通过Google Translate翻译成英语,然后再使用AWS Comprehend进行情感分类。情感标签分为正面、负面、中性或混合四种类型。数据以CSV格式存储,部分大型文件通过7zip进行了分割。
特点
该数据集的主要特点在于其多语言覆盖和大规模的数据量。英语推文数据集包含630万条推文,而其他语言如西班牙语、法语、意大利语和德语也分别提供了数十万至百万条不等的推文。此外,数据集的情感分类细致,涵盖了正面、负面、中性和混合四种情感类型,为情感分析研究提供了丰富的资源。
使用方法
数据集以CSV格式提供,用户可以直接下载并解压缩使用。每条推文占据一行,情感标签与推文内容一一对应。用户可以通过编程语言如Python加载CSV文件,进行数据清洗、预处理和情感分析模型的训练。此外,数据集的README文件中提供了使用指南和相关文章链接,帮助用户更好地理解和应用该数据集。
背景与挑战
背景概述
情感分析作为自然语言处理领域的重要分支,近年来在社交媒体文本分析中展现出巨大的应用潜力。Open datasets for sentiment analysis数据集由Charles Malafosse创建,旨在填补多语言情感分析数据集的空白。该数据集包含了2018年5月至9月期间通过Twitter API收集的推文,涵盖英语、西班牙语、法语、意大利语和德语五种语言,总计超过800万条推文。通过AWS Comprehend API进行情感标注,并采用Google Translate对非英语推文进行翻译处理,最终将情感分类为正面、负面、中性或混合。这一数据集的发布为多语言情感分析研究提供了丰富的资源,推动了相关领域的技术进步。
当前挑战
该数据集在构建过程中面临多重挑战。首先,多语言数据的收集与处理增加了复杂性,尤其是非英语推文的翻译与情感分析的准确性问题。其次,大规模数据的存储与分发也是一个技术难题,尤其是对超过25MB的文件进行分割处理。此外,情感分类的细粒度问题,如如何区分中性与混合情感,以及不同语言间的情感表达差异,都是该数据集在使用过程中需要克服的挑战。这些问题的解决不仅提升了数据集的质量,也为后续研究提供了宝贵的经验。
常用场景
经典使用场景
在情感分析领域,Open datasets for sentiment analysis 数据集因其多语言特性及大规模数据量而备受瞩目。该数据集包含了英语、西班牙语、法语、意大利语和德语的推文,涵盖了从体育赛事到全球性事件的广泛话题。研究者可以利用这些数据进行跨语言情感分析模型的训练与验证,尤其是在处理多语言文本时,该数据集提供了宝贵的资源。
衍生相关工作
基于该数据集,研究者已开展了多项经典工作,包括跨语言情感分析模型的开发、多语言情感迁移学习以及情感分析在特定领域(如体育赛事)的应用研究。这些工作不仅提升了情感分析技术的准确性,还为多语言文本处理提供了新的思路和方法,进一步推动了自然语言处理领域的研究进展。
数据集最近研究
最新研究方向
在情感分析领域,随着多语言数据集的日益重要,Open datasets for sentiment analysis凭借其涵盖英语、西班牙语、法语、意大利语和德语的海量推文数据,成为了前沿研究的热点。该数据集不仅提供了丰富的多语言情感标注,还通过AWS Comprehend API和Google Translate的结合,确保了情感分类的准确性。这一数据集的发布,极大地推动了多语言情感分析模型的开发与优化,尤其是在社交媒体分析和跨文化研究中的应用。此外,该数据集的开放性为学术界和工业界提供了宝贵的资源,促进了情感分析技术在全球范围内的普及与深化。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作