sentiment_merged
收藏Hugging Face2024-11-10 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/jbeno/sentiment_merged
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于3类情感分类的评论数据集(负面、中性、正面),由斯坦福情感树库(SST-3)和DynaSent第一轮和第二轮数据集合并而成。该数据集包含102,097个训练样本、5,421个验证样本和6,530个测试样本。数据集主要使用英语,并采用MIT许可证。数据集的合并有助于缓解源数据集中存在的类别不平衡问题。该数据集旨在用于情感分类模型的微调任务。
This is a comment dataset for 3-class sentiment classification (negative, neutral, positive), which is merged from the Stanford Sentiment Treebank (SST-3) and the first and second rounds of the DynaSent dataset. It contains 102,097 training samples, 5,421 validation samples, and 6,530 test samples. This dataset is primarily in English and released under the MIT License. The merging process helps alleviate the class imbalance issue present in the source datasets. This dataset is designed for fine-tuning sentiment classification models.
创建时间:
2024-11-10
原始信息汇总
数据集卡片:Sentiment Merged (SST-3, DynaSent R1, R2)
概述
该数据集用于3类情感分类(负面、中性、正面)的评论分类任务。它是由斯坦福情感树库(SST-3)和DynaSent第1轮和第2轮数据集合并而成。
数据集详情
- 数据集大小:包含102,097个训练样本,5,421个验证样本,6,530个测试样本。
- 标签分布:
| 分割 | 负面 | 中性 | 正面 |
|---|---|---|---|
| 训练 | 21,910 | 49,148 | 31,039 |
| 验证 | 1,868 | 1,669 | 1,884 |
| 测试 | 2,352 | 1,829 | 2,349 |
- 数据源贡献:
| 数据集 | 样本数 | 百分比 (%) |
|---|---|---|
| DynaSent R1 训练 | 80,488 | 78.83 |
| DynaSent R2 训练 | 13,065 | 12.80 |
| SST-3 训练 | 8,544 | 8.37 |
| 总计 | 102,097 | 100.00 |
数据集描述
SST-3是由SST-5(5类分类:正面、有些正面、中性、有些负面、负面)简化而来,将“有些正面”合并为“正面”,“有些负面”合并为“负面”。
DynaSent是一个情感分析数据集和动态基准,包含正面、负面和中性三类标签。该数据集在两轮中创建,第一轮使用RoBERTa模型在多个数据集上微调,提取挑战性句子并由人工验证。第二轮使用新的RoBERTa模型在类似但不同的数据上训练,并通过DynaBench平台创建新的挑战性句子。
数据集结构
数据集包含三个CSV文件:train_all.csv、val_all.csv、test_all.csv,分别代表合并后的训练、验证和测试集。
| 列 | 描述 |
|---|---|
| sentence | 评论句子 |
| label | 类别标签:负面、中性或正面 |
| source | 数据源:sst_local, dyansent_r1, 或 dynasent_r2 |
| split | 分割:训练、验证或测试 |
数据集创建
创建动机
该数据集的创建旨在为情感分类任务微调模型,目标是创建一个具有挑战性评论的多样化3类情感分类数据集。
数据源
数据集卡片联系人
搜集汇总
数据集介绍

构建方式
Sentiment Merged数据集是通过合并斯坦福情感树库(SST-3)和DynaSent第一轮与第二轮数据集构建而成。SST-3原本为五分类情感分析数据集,通过将‘稍微正面’和‘稍微负面’类别分别合并为‘正面’和‘负面’,转化为三分类数据集。DynaSent则通过动态基准测试生成具有挑战性的情感分析句子,经过两轮模型训练和人工验证。最终,这三个数据集被随机混合,形成了包含102,097个训练样本、5,421个验证样本和6,530个测试样本的新数据集。
特点
Sentiment Merged数据集的特点在于其多样性和挑战性。数据集涵盖了来自不同来源的评论句子,包括SST-3和DynaSent的两轮数据,确保了数据的广泛性和复杂性。尽管原始数据集存在类别不平衡问题,但通过合并,中性类别的比例得到了优化,减少了模型对主导类别的过度依赖。此外,DynaSent的引入为数据集增添了更具挑战性的中性类别句子,提升了模型训练的难度和实用性。
使用方法
Sentiment Merged数据集主要用于三分类情感分析任务,即对评论句子进行负面、中性或正面的分类。数据集以CSV文件形式提供,包含训练、验证和测试三个分割文件。每个文件包含句子、标签、来源和分割信息。研究人员可以直接使用这些文件进行模型训练和评估,尤其适用于需要处理复杂情感分析场景的模型开发。通过该数据集,用户可以构建和优化情感分类模型,提升其在真实世界应用中的表现。
背景与挑战
背景概述
Sentiment Merged数据集是一个专为三向情感分类(负面、中性、正面)设计的文本分类数据集,由斯坦福情感树库(SST-3)和DynaSent第一轮与第二轮数据集合并而成。该数据集由Jim Beno于2023年创建,旨在通过整合多个来源的数据,提供一个多样化的情感分析基准。SST-3数据集源自斯坦福情感树库,通过将“稍微正面”和“稍微负面”类别分别合并为“正面”和“负面”,简化了原有的五向分类。DynaSent则是一个动态的情感分析基准,通过训练RoBERTa模型并提取模型难以分类的句子,进一步丰富了数据集的挑战性。该数据集的创建不仅为情感分析领域提供了新的研究工具,还通过数据合并缓解了原有数据集中的类别不平衡问题。
当前挑战
Sentiment Merged数据集在构建和应用过程中面临多重挑战。首先,数据集中的类别不平衡问题依然存在,尽管通过合并数据缓解了部分不平衡,但中性类别的样本仍然占据主导地位,可能导致模型偏向于学习多数类别。其次,数据集的构建依赖于多个来源的数据,不同数据集的标注标准和数据质量可能存在差异,这为模型的训练和评估带来了不确定性。此外,DynaSent数据集的设计初衷是提取模型难以分类的句子,这些句子往往具有较高的语义复杂性,增加了模型的学习难度。最后,数据集的多样性虽然提升了其研究价值,但也可能导致模型在特定数据集上的过拟合,影响其泛化能力。
常用场景
经典使用场景
在情感分析领域,sentiment_merged数据集被广泛应用于三分类情感分类任务,即对评论进行负面、中立和正面的分类。该数据集结合了Stanford Sentiment Treebank (SST-3)和DynaSent R1、R2的数据,提供了丰富的训练样本,使得模型能够在多样化的评论数据上进行训练和验证。
实际应用
在实际应用中,sentiment_merged数据集被广泛用于电商平台、社交媒体和客户反馈系统中,用于自动分析用户评论的情感倾向。通过使用该数据集训练的模型,企业能够快速识别用户对产品或服务的态度,从而优化客户体验,提升用户满意度。
衍生相关工作
sentiment_merged数据集的发布推动了情感分析领域的研究进展。基于该数据集,许多经典的研究工作得以展开,例如改进的情感分类模型、跨领域情感迁移学习以及情感分析中的对抗样本生成等。这些研究不仅提升了情感分析技术的性能,还为相关领域的应用提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



