Massively Multilingual Sentiment Datasets

github2023-11-14 更新2024-05-31 收录

下载链接：

https://github.com/Brand24-AI/mms_benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是最全面的开放式大规模多语言情感分析数据集，包含了从科学文献中报告的350多个数据集中精心挑选的79个数据集，覆盖27种语言，代表6个语系。数据集可通过多种语言和功能特性进行查询，并提供了一个多方面的情感分类基准，总结了在不同基础模型、训练目标、数据集集合和微调策略上进行的数百次实验。

This dataset represents the most comprehensive open-source large-scale multilingual sentiment analysis dataset, comprising 79 datasets meticulously selected from over 350 datasets reported in scientific literature, spanning 27 languages and representing 6 language families. The dataset can be queried based on various linguistic and functional features, and it provides a multifaceted sentiment classification benchmark, summarizing hundreds of experiments conducted on different foundational models, training objectives, dataset collections, and fine-tuning strategies.

创建时间：

2023-06-09

原始信息汇总

数据集概述

数据集名称

Massively Multilingual Sentiment Datasets

数据集描述

内容: 包含79个手动筛选的多语言情感分析数据集，覆盖27种语言，代表6个语言家族。
特点: 提供文本和情感标签，以及多种语言和数据集的额外维度信息，支持灵活的数据切片和分析。
规模: 总计6164762个样本。

数据集结构

主要特征:
- _id: 整数标识
- text: 文本内容
- label: 情感标签（negative, neutral, positive）
- original_dataset: 原始数据集名称
- domain: 领域
- language: 语言
- Family: 语言家族
- Genus: 语言属
- 其他语言学特征（如语法性别、否定形态等）

数据集使用

示例: 支持按语言、语言家族等条件筛选数据集。
应用案例: 可用于训练情感分类器，支持特定语言或语言家族的数据下载和分析。

数据集统计

情感标签分布:
- 积极: 3494478 (56.7%)
- 中性: 1341354 (21.8%)
- 消极: 1328930 (21.6%)

数据集维护

维护者:
- Łukasz Augustyniak
- Szymon Woźniak
- Marcin Gruza
- Piotr Gramacki
- Krzysztof Rajda
- Mikołaj Morzy
- Tomasz Kajdanowicz

许可证

使用许可: Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)

搜集汇总

数据集介绍

构建方式

Massively Multilingual Sentiment Datasets（MMS）数据集是通过从科学文献中报告的350多个数据集中，依据严格的质量标准筛选出79个数据集构建而成。这些数据集涵盖了27种语言，代表了6个语系。数据集的构建过程不仅包括文本和情感标签的收集，还引入了多种语言学和功能特征，使得数据集能够支持多维度的查询和分析。

使用方法

MMS数据集的使用方法灵活多样，用户可以通过Hugging Face平台加载数据集，并使用Python代码进行数据查询和过滤。例如，用户可以根据语言、语法特征或领域信息筛选特定子集，或直接使用数据集进行情感分类模型的训练和评估。数据集还支持将数据转换为Pandas DataFrame格式，便于进一步的数据分析和可视化操作。

背景与挑战

背景概述

Massively Multilingual Sentiment Datasets（MMS）是由Łukasz Augustyniak等人于2023年发布的一个大规模多语言情感分析数据集。该数据集旨在解决多语言情感分析中的文化依赖性问题，特别是在情感标记的表达上，不同语言和文化之间存在显著差异。MMS数据集包含了从科学文献中精选的79个高质量数据集，涵盖了27种语言，涉及6个语系。该数据集的发布为多语言情感分析模型的训练和评估提供了丰富的资源，推动了跨语言情感分析领域的研究进展。

当前挑战

MMS数据集在构建过程中面临的主要挑战包括：1) 文化依赖性问题的处理，情感标记的表达在不同语言和文化中具有显著的差异，如何准确捕捉这些细微差别是一个难题；2) 数据集的多样性和质量保证，从超过350个数据集中筛选出79个高质量数据集，需要严格的筛选标准和人工审核；3) 多语言模型的训练和评估，不同语言之间的语法结构和情感表达方式差异较大，如何设计有效的训练策略和评估基准是一个复杂的任务。此外，数据集的构建还需要处理大量的文本数据，确保数据的准确性和一致性。

常用场景

经典使用场景

在自然语言处理领域，情感分析是一个重要的研究方向，尤其是在多语言环境下，情感的表达往往与文化背景密切相关。Massively Multilingual Sentiment Datasets（MMS）数据集为研究者提供了一个覆盖27种语言、包含79个高质量数据集的语料库，广泛应用于多语言情感分类模型的训练与评估。通过该数据集，研究者可以针对不同语言和文化背景下的情感表达进行深入分析，从而提升模型的跨语言泛化能力。

解决学术问题

MMS数据集解决了多语言情感分析中的关键问题，尤其是在文化依赖性强的情感标记识别方面。传统的情感分析模型往往局限于单一语言，难以捕捉不同语言和文化中的情感细微差异。MMS通过提供多语言、多文化背景下的情感数据，帮助研究者开发更具鲁棒性的多语言情感分类模型，推动了跨语言情感分析领域的发展。

实际应用

在实际应用中，MMS数据集被广泛用于社交媒体监控、产品评论分析以及跨文化市场调研等领域。例如，企业可以通过该数据集训练多语言情感分析模型，实时监控全球用户对其产品或服务的反馈，从而优化营销策略。此外，政府和非营利组织也可以利用该数据集分析不同语言社区的情感倾向，为政策制定提供数据支持。

数据集最近研究