cardiffnlp/tweet_sentiment_multilingual
收藏Hugging Face2022-11-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cardiffnlp/tweet_sentiment_multilingual
下载链接
链接失效反馈官方服务:
资源简介:
Tweet Sentiment Multilingual数据集是一个包含8种语言的Twitter情感分析数据集,支持文本分类任务。数据集包括阿拉伯语、英语、法语、德语、印地语、意大利语、葡萄牙语和西班牙语的推文数据。每个数据实例包含推文文本和情感标签,标签分为负面、中性和正面三类。数据集的结构包括训练集、验证集和测试集,每个语言的数据集都有相同的分割比例。数据集的创建者包括Francesco Barbieri等人,数据集遵循Creative Commons Attribution 3.0 Unported License许可,并需遵守Twitter的服务条款和API使用条款。
The Tweet Sentiment Multilingual dataset is a multilingual Twitter sentiment analysis dataset tailored for text classification tasks, encompassing 8 languages. It comprises tweet datasets in Arabic, English, French, German, Hindi, Italian, Portuguese, and Spanish. Each data instance consists of a tweet text snippet and a sentiment label, which falls into three distinct categories: negative, neutral, and positive. The dataset is partitioned into training, validation, and test subsets, with an identical split ratio applied to the datasets of each individual language. This dataset was curated by Francesco Barbieri et al., and is distributed under the Creative Commons Attribution 3.0 Unported License. Users are required to comply with both Twitter’s Terms of Service and its API Usage Terms.
提供机构:
cardiffnlp
原始信息汇总
数据集概述
数据集名称: Tweet Sentiment Multilingual
语言支持: 英语、阿拉伯语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语
多语言性: 多语言
数据集大小: 10,000 < n < 100,000
来源数据集: 扩展自其他推特数据集
任务类别: 文本分类
任务ID: 情感分类
训练与评估配置:
- 配置名称: sentiment
- 任务: 文本分类
- 任务ID: multi_class_classification
- 数据分割:
- 训练集:train
- 评估集:test
- 列映射:
- 文本:text
- 标签:target
- 评估指标:
- 准确率(Accuracy)
- F1分数(F1 macro, F1 micro, F1 weighted)
- 精确率(Precision macro, Precision micro, Precision weighted)
- 召回率(Recall macro, Recall micro, Recall weighted)
数据集特征:
- 文本: 字符串类型,包含推文内容
- 标签: 分类标签,映射如下:
- 0: 负面
- 1: 中性
- 2: 正面
数据集结构:
- 数据实例: 包含标签和文本字段
- 数据字段:
- 文本:推文内容
- 标签:情感分类结果,0为负面,1为中性,2为正面
数据分割:
- 语言: 阿拉伯语、英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语
- 分割详情:
- 训练集:1838条
- 验证集:323条
- 测试集:869条
数据集创建者: Francesco Barbieri, Jose Camacho-Collados, Luis Espirosa-Anke, Leonardo Neves(通过Cardiff NLP)
许可证信息: 创意共享署名3.0未移植许可证,需遵守Twitter服务条款和Twitter API服务条款
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



