mteb/tweet_sentiment_multilingual
收藏Hugging Face2025-07-23 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/mteb/tweet_sentiment_multilingual
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含8种不同语言推文的情感分析数据集,包括阿拉伯语、德语、英语、法语、印地语、意大利语、葡萄牙语和西班牙语。数据集由人类标注,并且是多语言的,包含情感分析、情感评分、情感分类和仇恨言论检测等任务。数据集的大小在10K到100K之间,并提供了不同的配置来处理每种语言的训练、测试和验证数据。数据集的特征包括文本和标签,标签是具有三个可能值的类标签:负面、中性和正面。数据集适合文本分类任务,并包括准确性、F1分数、精确度和召回率等评估指标。
A multilingual Sentiment Analysis dataset consisting of tweets in 8 different languages.
提供机构:
mteb
原始信息汇总
数据集概述
名称: Tweet Sentiment Multilingual
语言: 英语、阿拉伯语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语
多语言性: 多语言
大小: 10K<n<100K
来源数据集: 扩展自其他推特数据集
任务类别: 文本分类
任务ID: 情感分类
论文代码ID: tweet_sentiment_multilingual
美观名称: Tweet Sentiment Multilingual
训练与评估配置
- 配置: sentiment
- 任务: 文本分类
- 任务ID: multi_class_classification
- 分割:
- 训练分割: train
- 评估分割: test
- 列映射:
- 文本: text
- 标签: target
- 评估指标:
- 准确率 (Accuracy)
- F1 宏 (F1 macro)
- F1 微 (F1 micro)
- F1 加权 (F1 weighted)
- 精确率 宏 (Precision macro)
- 精确率 微 (Precision micro)
- 精确率 加权 (Precision weighted)
- 召回率 宏 (Recall macro)
- 召回率 微 (Recall micro)
- 召回率 加权 (Recall weighted)
数据集结构
-
数据实例:
{label: 2, text: "QT @user In the original draft of the 7th book, Remus Lupin survived the Battle of Hogwarts. #HappyBirthdayRemusLupin"}
-
数据字段:
text: 字符串类型,包含推文内容。label: 整数类型,分类标签,映射如下:0: 负面1: 中性2: 正面
数据分割
| 名称 | 训练 | 验证 | 测试 |
|---|---|---|---|
| arabic | 1838 | 323 | 869 |
| english | 1838 | 323 | 869 |
| french | 1838 | 323 | 869 |
| german | 1838 | 323 | 869 |
| hindi | 1838 | 323 | 869 |
| italian | 1838 | 323 | 869 |
| portuguese | 1838 | 323 | 869 |
| spanish | 1838 | 323 | 869 |
搜集汇总
数据集介绍

构建方式
在社交媒体情感分析领域,多语言数据的稀缺性促使了该数据集的构建。Tweet Sentiment Multilingual数据集通过人工标注的方式,从Twitter平台收集了涵盖阿拉伯语、德语、英语、法语、印地语、意大利语、葡萄牙语和西班牙语八种语言的推文文本。每条推文均被赋予情感极性标签,包括负面、中性和正面三类,确保了标注的一致性与可靠性。数据集遵循标准的机器学习流程,划分为训练集、验证集和测试集,为模型训练与评估提供了结构化支持。
特点
该数据集的核心特征在于其广泛的多语言覆盖与社交媒体文本的真实性。它囊括了八种具有代表性的语言,为跨语言情感分析研究提供了丰富的语料资源。推文内容源自实际社交平台,包含了非正式表达、网络用语及文化特定元素,能够有效反映真实世界中的情感表达方式。数据规模适中,各语言子集均保持平衡的类别分布,确保了模型训练的稳定性与评估的公平性。
使用方法
该数据集主要应用于多语言文本嵌入模型的基准测试与情感分析任务。研究人员可通过MTEB(Massive Text Embedding Benchmark)框架便捷地加载数据集,并利用其预定义的评估指标,如准确率、F1分数等,对模型性能进行系统化衡量。数据集支持按语言配置独立加载,便于进行特定语言的深入分析或跨语言的对比研究。其结构化格式与清晰的数据划分,为模型的训练、验证与测试流程提供了标准化接口。
背景与挑战
背景概述
社交媒体文本的情感分析是自然语言处理领域的重要研究方向,旨在从用户生成内容中自动识别情感倾向。Tweet Sentiment Multilingual数据集由Francesco Barbieri、Luis Espinosa Anke和Jose Camacho-Collados等研究人员于2022年构建,并作为大规模文本嵌入基准(MTEB)的一部分。该数据集汇集了阿拉伯语、德语、英语、法语、印地语、意大利语、葡萄牙语和西班牙语八种语言的推文,每条推文均经过人工标注为积极、中立或消极情感。其核心研究问题在于探索多语言环境下社交媒体文本的情感表达差异,并为跨语言情感分析模型提供统一的评估基准。该数据集的发布显著推动了多语言预训练模型在社交媒体领域的应用,为后续研究提供了宝贵的跨语言情感分析资源。
当前挑战
该数据集致力于解决多语言社交媒体情感分析任务,其面临的领域挑战包括:社交媒体文本常包含非正式表达、网络俚语、缩写和表情符号,增加了情感极性判定的复杂性;不同语言和文化背景下的情感表达方式存在显著差异,模型需具备跨语言泛化能力;数据类别不平衡问题可能影响模型对少数情感类别的识别性能。在构建过程中,挑战主要体现在多语言数据收集与标注的协调,确保不同语言数据在规模和质量上的一致性;人工标注需克服主观性,建立统一的情感标注准则以保障标注可靠性;原始推文数据的噪声过滤与隐私信息处理也是构建过程中的关键难点。
常用场景
经典使用场景
在社交媒体情感分析领域,Tweet Sentiment Multilingual数据集为研究者提供了一个跨语言情感分类的基准测试平台。该数据集汇集了阿拉伯语、德语、英语、法语、印地语、意大利语、葡萄牙语和西班牙语八种语言的推文,每条推文均标注了积极、中立或消极的情感极性。其经典使用场景在于评估和比较各类多语言文本嵌入模型及情感分类算法在真实社交媒体文本上的性能表现,尤其关注模型在不同语言间的泛化能力与鲁棒性。
实际应用
在实际应用层面,Tweet Sentiment Multilingual数据集支撑了全球范围内的社交媒体舆情监控、品牌声誉管理以及市场趋势分析。企业可利用基于该数据集训练的模型,实时监测不同国家和地区消费者对产品、服务或公共事件的情感反馈,从而制定本地化的营销策略或进行危机公关。此外,该数据集也有助于开发面向多语言用户群体的聊天机器人、内容推荐系统,提升数字服务的用户体验与文化适应性。
衍生相关工作
围绕该数据集,学术界衍生了一系列经典研究工作。其直接关联的奠基性工作是XLM-T模型,该模型通过在大量多语言推文上预训练,并在此数据集上微调,树立了推特多语言情感分析的新基线。此外,该数据集作为大规模文本嵌入基准(MTEB)及其扩展MMTEB的重要组成部分,催生了众多针对多语言文本表示学习的评估框架与模型改进研究,持续推动着跨语言语义理解技术的发展与标准化进程。
以上内容由遇见数据集搜集并总结生成



