carblacac/twitter-sentiment-analysis
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/carblacac/twitter-sentiment-analysis
下载链接
链接失效反馈官方服务:
资源简介:
---
pretty_name: "TSATC: Twitter Sentiment Analysis Training Corpus"
annotations_creators:
- expert-generated
language_creators:
- other
language:
- en
license:
- apache-2.0
multilinguality:
- monolingual
size_categories:
- 100K<n<1M
source_datasets:
- original
task_categories:
- text-classification
task_ids:
- feeling-classification
paperswithcode_id: other
configs:
- None
---
# Dataset Card for TSATC: Twitter Sentiment Analysis Training Corpus
## Table of Contents
- [Dataset Description](#dataset-description)
- [Dataset Summary](#dataset-summary)
- [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards)
- [Languages](#languages)
- [Dataset Structure](#dataset-structure)
- [Data Instances](#data-instances)
- [Data Fields](#data-fields)
- [Data Splits](#data-splits)
- [Dataset Creation](#dataset-creation)
- [Curation Rationale](#curation-rationale)
- [Source Data](#source-data)
- [Annotations](#annotations)
- [Personal and Sensitive Information](#personal-and-sensitive-information)
- [Considerations for Using the Data](#considerations-for-using-the-data)
- [Social Impact of Dataset](#social-impact-of-dataset)
- [Discussion of Biases](#discussion-of-biases)
- [Other Known Limitations](#other-known-limitations)
- [Additional Information](#additional-information)
- [Dataset Curators](#dataset-curators)
- [Licensing Information](#licensing-information)
- [Citation Information](#citation-information)
- [Contributions](#contributions)
## Dataset Description
- **Homepage:** [TSATC](https://github.com/cblancac/SentimentAnalysisBert/blob/main/data)
- **Repository:** [TSATC](https://github.com/cblancac/SentimentAnalysisBert/blob/main/data)
- **Paper:** [TSATC: Twitter Sentiment Analysis Training Corpus](http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/)
- **Point of Contact:** [Carlos Blanco](carblacac7@gmail.com)
### Dataset Summary
TSATC: Twitter Sentiment Analysis Training Corpus
The original Twitter Sentiment Analysis Dataset contains 1,578,627 classified tweets, each row is marked as 1 for positive sentiment and 0 for negative sentiment. It can be downloaded from http://thinknook.com/wp-content/uploads/2012/09/Sentiment-Analysis-Dataset.zip.
The dataset is based on data from the following two sources:
University of Michigan Sentiment Analysis competition on Kaggle
Twitter Sentiment Corpus by Niek Sanders
This dataset has been transformed, selecting in a random way a subset of them, applying a cleaning process, and dividing them between the test and train subsets, keeping a balance between the number of positive and negative tweets within each of these subsets. These two files can be founded on https://github.com/cblancac/SentimentAnalysisBert/blob/main/data.
Finally, the train subset has been divided in two smallest datasets, train (80%) and validation (20%). The final dataset has been created with these two new subdatasets plus the previous test dataset.
### Supported Tasks and Leaderboards
[More Information Needed]
### Languages
The text in the dataset is in English.
## Dataset Structure
### Data Instances
Below are two examples from the dataset:
| | Text | Feeling |
| :-- | :---------------------------- | :------ |
| (1) | blaaah. I don't feel good aagain. | 0 |
| (2) | My birthday is coming June 3. | 1 |
### Data Fields
In the final dataset, all files are in the JSON format with f columns:
| Column Name | Data |
| :------------ | :-------------------------- |
| text | A sentence (or tweet) |
| feeling | The feeling of the sentence |
Each feeling has two possible values: `0` indicates the sentence has a negative sentiment, while `1` indicates a positive feeling.
### Data Splits
The number of examples and the proportion sentiments are shown below:
| Data | Train | Validation | Test |
| :------------------ | ------: | ------------: | ----: |
| Size | 119.988 | 29.997 | 61.998 |
| Labeled positive | 60.019 | 14.947 | 31029 |
| Labeled negative | 59.969 | 15.050 | 30969 |
## Dataset Creation
### Curation Rationale
Existing paraphrase identification datasets lack sentence pairs that have high lexical overlap without being paraphrases. Models trained on such data fail to distinguish pairs like *flights from New York to Florida* and *flights from Florida to New York*.
### Source Data
#### Initial Data Collection and Normalization
[More Information Needed]
#### Who are the source language producers?
Mentioned above.
### Annotations
#### Annotation process
[More Information Needed]
#### Who are the annotators?
[More Information Needed]
### Personal and Sensitive Information
[More Information Needed]
## Considerations for Using the Data
### Social Impact of Dataset
[More Information Needed]
### Discussion of Biases
[More Information Needed]
### Other Known Limitations
[More Information Needed]
## Additional Information
### Dataset Curators
[More Information Needed]
### Citation Information
```
@InProceedings{paws2019naacl,
title = {{TSATC: Twitter Sentiment Analysis Training Corpus}},
author = {Ibrahim Naji},
booktitle = {thinknook},
year = {2012}
}
```
### Contributions
Thanks to myself [@carblacac](https://github.com/cblancac/) for adding this transformed dataset from the original one.
---
pretty_name: "TSATC:推特情感分析训练语料库"
annotations_creators:
- 专家生成标注
language_creators:
- 其他
language:
- 英语
license:
- apache-2.0
multilinguality:
- 单语言
size_categories:
- 100K<n<1M
source_datasets:
- 原生数据集
task_categories:
- 文本分类
task_ids:
- 情感分类(feeling-classification)
paperswithcode_id: other
configs:
- None
---
# TSATC:推特情感分析训练语料库 数据集卡片
## 目录
- [数据集描述](#dataset-description)
- [数据集摘要](#dataset-summary)
- [支持任务与评测基准](#supported-tasks-and-leaderboards)
- [语言](#languages)
- [数据集结构](#dataset-structure)
- [数据样本](#data-instances)
- [数据字段](#data-fields)
- [数据划分](#data-splits)
- [数据集构建](#dataset-creation)
- [构建初衷](#curation-rationale)
- [源数据](#source-data)
- [标注信息](#annotations)
- [个人与敏感信息](#personal-and-sensitive-information)
- [数据集使用注意事项](#considerations-for-using-the-data)
- [数据集的社会影响](#social-impact-of-dataset)
- [偏差分析](#discussion-of-biases)
- [其他已知局限性](#other-known-limitations)
- [附加信息](#additional-information)
- [数据集维护者](#dataset-curators)
- [许可信息](#licensing-information)
- [引用信息](#citation-information)
- [贡献声明](#contributions)
## 数据集描述
- **主页:** [TSATC](https://github.com/cblancac/SentimentAnalysisBert/blob/main/data)
- **代码仓库:** [TSATC](https://github.com/cblancac/SentimentAnalysisBert/blob/main/data)
- **相关论文:** [TSATC: 推特情感分析训练语料库](http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/)
- **联系人:** [卡洛斯·布兰科(Carlos Blanco)](carblacac7@gmail.com)
### 数据集摘要
本数据集为TSATC:推特情感分析训练语料库。
原始推特情感分析数据集包含1,578,627条已标注的推文,每条样本的标签为1时代表积极情感,为0时代表消极情感。该原始数据集可从 http://thinknook.com/wp-content/uploads/2012/09/Sentiment-Analysis-Dataset.zip 下载。
本数据集基于以下两个数据源构建:
1. 密歇根大学Kaggle情感分析竞赛数据集
2. 尼克·桑德斯(Niek Sanders)的推特语料库
本次发布的数据集经过预处理流程:首先从原始数据集中随机抽取子集,随后对样本进行清洗,并划分为训练集与测试集,且在两个子集内均保持积极与消极推文的数量平衡。相关预处理后的文件可在 https://github.com/cblancac/SentimentAnalysisBert/blob/main/data 获取。
进一步地,我们将训练集划分为两个更小的子集:训练子集(占比80%)与验证子集(占比20%)。最终的完整数据集由这两个新划分的子集与原测试子集合并而成。
### 支持任务与评测基准
[需补充更多信息]
### 语言
数据集中的文本均为英语。
## 数据集结构
### 数据样本
以下为数据集中的两个示例:
| | 文本 | 情感标签 |
| :-- | :---------------------------- | :------ |
| (1) | blaaah. I don't feel good aagain. | 0 |
| (2) | My birthday is coming June 3. | 1 |
### 数据字段
在最终的数据集中,所有文件均采用JSON格式,包含以下两列:
| 列名 | 数据说明 |
| :------------ | :-------------------------- |
| text | 单条句子(或推文) |
| feeling | 该句子的情感倾向 |
其中情感标签仅包含两种可能取值:`0` 代表句子为消极情感,`1` 代表句子为积极情感。
### 数据划分
各子集的样本数量与情感分布如下:
| 数据集子集 | 训练集 | 验证集 | 测试集 |
| :------------------ | ------: | ------------: | ----: |
| 样本数量 | 119,988 | 29,997 | 61,998 |
| 积极标注样本数 | 60,019 | 14,947 | 31,029 |
| 消极标注样本数 | 59,969 | 15,050 | 30,969 |
## 数据集构建
### 构建初衷
现有释义识别数据集缺乏具备高词汇重叠度但并非释义的句子对,基于此类数据训练的模型无法区分诸如*flights from New York to Florida*与*flights from Florida to New York*这类样本对。
### 源数据
#### 初始数据收集与标准化
[需补充更多信息]
#### 源文本生产者
如前文所述。
### 标注信息
#### 标注流程
[需补充更多信息]
#### 标注人员
[需补充更多信息]
### 个人与敏感信息
[需补充更多信息]
## 数据集使用注意事项
### 数据集的社会影响
[需补充更多信息]
### 偏差分析
[需补充更多信息]
### 其他已知局限性
[需补充更多信息]
## 附加信息
### 数据集维护者
[需补充更多信息]
### 许可信息
[需补充更多信息]
### 引用信息
@InProceedings{paws2019naacl,
title = {{TSATC: Twitter Sentiment Analysis Training Corpus}},
author = {Ibrahim Naji},
booktitle = {thinknook},
year = {2012}
}
### 贡献声明
感谢本人 [@carblacac](https://github.com/cblancac/) 对该数据集的转换与上传工作,该版本基于原始数据集重构而来。
提供机构:
carblacac
原始信息汇总
数据集概述
数据集名称
- 名称: TSATC: Twitter Sentiment Analysis Training Corpus
数据集属性
- 语言: 英语 (en)
- 许可证: Apache-2.0
- 多语言性: 单语
- 大小范围: 100K<n<1M
- 源数据: 原始数据
- 任务类别: 文本分类
- 任务ID: 情感分类
数据集描述
- 摘要: TSATC包含1,578,627条分类推文,每条推文标记为1(正面情感)或0(负面情感)。数据集经过筛选、清洗,并分为训练集和测试集,保持正负情感推文数量的平衡。
- 语言: 数据集中的文本为英语。
数据集结构
- 数据实例: 数据集包含文本和情感标签,示例包括文本内容和对应的情感标签(0或1)。
- 数据字段: 数据集中的文件为JSON格式,包含两个字段:文本(text)和情感(feeling)。情感字段有两个可能值:0表示负面情感,1表示正面情感。
- 数据分割: 数据集分为训练集、验证集和测试集,各部分包含的示例数量和情感分布均有详细记录。
数据集创建
- 源数据: 数据集基于密歇根大学在Kaggle上的情感分析竞赛数据和Niek Sanders的Twitter情感语料库。
- 数据处理: 数据经过随机选择、清洗和分割,确保训练集和测试集中的正负情感推文数量平衡。
许可证信息
- 许可证: Apache-2.0
引用信息
@InProceedings{paws2019naacl, title = {{TSATC: Twitter Sentiment Analysis Training Corpus}}, author = {Ibrahim Naji}, booktitle = {thinknook}, year = {2012} }
搜集汇总
数据集介绍

构建方式
TSATC数据集的构建基于对原始Twitter情感分析数据集的筛选、清洗及划分。该过程首先从原始数据集中随机选择子集,随后对选定数据执行清洗,以消除噪声和无关信息。最终,数据集被划分为训练集、验证集和测试集,每个子集都保持了正面和负面推文的平衡,确保模型的泛化能力。
特点
TSATC数据集具有英语单语种的特点,包含约120,000条经过标注的推文,分为正面和负面情感两类。数据集以JSON格式存储,包含两个字段:'text'存储推文文本,'feeling'存储对应的情感标签。此外,数据集在构建时注重了样本的均衡性,避免了偏差的产生。
使用方法
使用TSATC数据集时,用户可以依据数据集提供的JSON格式直接加载推文数据。数据集分为训练、验证和测试三个部分,方便用户进行模型训练、参数调优和性能评估。用户需遵循Apache-2.0许可协议使用该数据集,并按照提供的引用信息进行文献引用。
背景与挑战
背景概述
TSATC: Twitter Sentiment Analysis Training Corpus,简称TSATC,是一款专注于情感分析的Twitter数据集。该数据集由Ibrahim Naji于2012年创建,旨在为研究者提供一个大规模、经过预标注的Twitter情感分析训练集。数据集来源于University of Michigan在Kaggle上的情感分析竞赛以及Niek Sanders的Twitter情感语料库。TSATC经过精心筛选和清洗,确保了数据的质量和均衡性,对自然语言处理、情感分析等领域的研究具有深远影响。
当前挑战
该数据集在构建过程中主要面临的挑战包括:如何从大规模数据中随机选取子集,同时保持正负情感标签的平衡;如何有效清洗数据以消除噪声;以及如何合理划分训练集、验证集和测试集,以适应不同的模型训练和评估需求。在研究领域问题上,TSATC解决了情感分析中的数据集不平衡问题,同时,由于Twitter数据的多样性和复杂性,如何确保标注的准确性和一致性也是一大挑战。
常用场景
经典使用场景
在自然语言处理领域中,情感分析是一项基础且关键的技术。TSATC数据集,即Twitter情感分析训练语料库,便是针对此任务而构建的。该数据集最经典的使用场景在于训练机器学习模型以识别和分类推文的情感倾向,从而为后续的情感分析任务提供强有力的数据支撑。
衍生相关工作
基于TSATC数据集的研究衍生出了大量相关工作,包括但不限于情感分析模型的改进、跨语言情感分析、以及情感分析在特定领域的应用研究。这些工作不仅推动了情感分析技术的发展,也为其他相关领域如信息检索、推荐系统等提供了新的思路和方法。
数据集最近研究
最新研究方向
在自然语言处理领域,特别是在情感分析的研究中,TSATC数据集作为Twitter sentiment analysis的专用训练语料库,其重要性日益凸显。近期的研究方向主要聚焦于深度学习模型的微调与优化,以提升对推文情感判断的准确度。通过该数据集,学者们能够训练出能够精准识别正面与负面情绪的模型,进而应用于市场分析、舆情监控等多个领域。此外,对于数据集的多样性和平衡性的研究,以及如何减少偏见和增强模型的公平性,也是当前研究的热点。TSATC数据集因其规模适中、标注质量高,成为了这些研究不可或缺的基础资源。
以上内容由遇见数据集搜集并总结生成



