MR, SST1, SST2, Subj, TREC, CR, MPQA
收藏github2022-07-01 更新2024-05-31 收录
下载链接:
https://github.com/saurabh3949/Text-Classification-Datasets
下载链接
链接失效反馈官方服务:
资源简介:
MR: 电影评论数据集,每条评论包含一个句子,任务是检测正面或负面评论。SST-1: 斯坦福情感树库,是MR的扩展,提供训练/开发/测试分割和细粒度标签。SST-2: 与SST-1相同,但移除了中性评论并使用二元标签。Subj: 主观性数据集,任务是分类句子为主观或客观。TREC: TREC问题数据集,任务是将问题分类为6种问题类型。CR: 客户对各种产品的评论,任务是预测正面或负面评论。MPQA: 多角度问题回答数据集。
MR: The Movie Review dataset, where each review consists of a single sentence, and the task is to detect positive or negative reviews. SST-1: The Stanford Sentiment Treebank, an extension of MR, provides train/dev/test splits and fine-grained labels. SST-2: Similar to SST-1 but with neutral reviews removed and binary labels used. Subj: The Subjectivity dataset, where the task is to classify sentences as subjective or objective. TREC: The TREC Question dataset, where the task is to classify questions into 6 question types. CR: Customer reviews of various products, where the task is to predict positive or negative reviews. MPQA: The Multi-Perspective Question Answering dataset.
创建时间:
2017-11-27
原始信息汇总
数据集概述
数据集列表
| 数据集 | 类别数 | 平均句子长度 | 数据集大小 | 词汇量 | 在word2vec中的单词数 | 测试集大小 |
|---|---|---|---|---|---|---|
| MR | 2 | 20 | 10662 | 18765 | 16448 | CV |
| SST1 | 5 | 18 | 11855 | 17836 | 16262 | 2210 |
| SST2 | 2 | 19 | 9613 | 16185 | 14838 | 1821 |
| Subj | 2 | 23 | 10000 | 21323 | 17913 | CV |
| TREC | 6 | 10 | 5952 | 9592 | 9125 | 500 |
| CR | 2 | 19 | 3775 | 5340 | 5046 | CV |
| MPQA | 2 | 3 | 10606 | 6246 | 6083 | CV |
数据集详细信息
- MR: 电影评论数据集,每条评论包含一个句子,任务是检测评论的正负性。
- SST-1: 斯坦福情感树库,是MR的扩展,提供训练/开发/测试分割和细粒度标签。
- SST-2: 与SST-1相同,但移除了中性评论并使用二元标签。
- Subj: 主观性数据集,任务是分类句子为主观或客观。
- TREC: TREC问题数据集,任务是将问题分类为6种类型。
- CR: 客户对各种产品的评论,任务是预测评论的正负性。
- MPQA: 多视角问答数据集。
数据文件
| 数据集 | 文件 |
|---|---|
| MR | rt-polarity.all |
| SST-1 | stsa.fine.* |
| SST-2 | stsa.binary.* |
| Subj | subj.all |
| TREC | TREC.* |
| CR | custrev.all |
| MPQA | mpqa.all |
搜集汇总
数据集介绍

构建方式
该数据集集合了多个经典的自然语言处理任务数据集,包括MR、SST1、SST2、Subj、TREC、CR和MPQA。这些数据集来源于不同的研究领域,如电影评论情感分析、问题分类和产品评论情感分析等。每个数据集的构建均基于特定的任务需求,例如MR数据集通过收集电影评论并标注其情感极性(正面或负面)来构建,而SST1和SST2则基于斯坦福情感树库,进一步细化了情感标签并提供了短语级别的标注。TREC数据集则专注于问题分类任务,将问题分为六种类型。
特点
该数据集集合的特点在于其多样性和广泛的应用场景。每个数据集都具有不同的类别数量、句子平均长度和词汇量,涵盖了从二元分类到多类分类的多种任务。例如,SST1提供了五类情感标签,而SST2则简化为二元分类。TREC数据集则专注于问题类型分类,包含六种问题类型。此外,这些数据集的规模适中,适合用于模型训练和评估,且部分数据集如SST1和SST2还提供了短语级别的标注,进一步丰富了数据的层次性。
使用方法
该数据集集合适用于多种自然语言处理任务,如情感分析、文本分类和问题分类等。使用这些数据集时,用户可以根据具体任务选择合适的数据集进行模型训练和评估。例如,MR和CR数据集可用于情感分析任务,而TREC数据集则适用于问题分类任务。对于SST1和SST2数据集,用户可以在短语级别和句子级别上进行训练,并在测试时仅使用句子级别的数据进行评估。每个数据集的文件格式清晰,便于加载和处理,用户可以通过提供的文件路径直接访问数据。
背景与挑战
背景概述
MR、SST1、SST2、Subj、TREC、CR、MPQA数据集是自然语言处理领域中广泛使用的文本分类基准数据集。这些数据集由多个研究团队在不同时间创建,涵盖了情感分析、主观性分类、问题分类等多个任务。例如,MR数据集由Pang和Lee于2005年发布,专注于电影评论的情感分类;SST1和SST2数据集则是由Socher等人于2013年基于MR数据集扩展而来,提供了更细粒度的情感标签。Subj数据集由Pang和Lee于2004年提出,用于区分句子是主观还是客观表达。TREC数据集由Li和Roth于2002年发布,旨在对问题进行分类。CR和MPQA数据集则分别由Hu和Liu于2004年发布,用于产品评论的情感分析和意见挖掘。这些数据集为文本分类任务提供了丰富的实验数据,推动了自然语言处理领域的发展。
当前挑战
这些数据集在解决文本分类问题时面临多重挑战。首先,情感分析和主观性分类任务需要模型能够捕捉文本中的细微情感差异,而SST1和SST2数据集中的中性样本和细粒度标签增加了分类难度。其次,TREC数据集的问题分类任务要求模型理解问题的语义类型,这对模型的语义理解能力提出了较高要求。此外,数据集的构建过程中也存在挑战,例如MR和CR数据集中的文本长度较短,可能导致信息稀疏问题;SST1和SST2数据集的短语级标注虽然增加了训练数据量,但也引入了标注不一致的风险。最后,MPQA数据集的句子长度极短,可能限制了模型的上下文学习能力。这些挑战共同推动了文本分类模型的优化与创新。
常用场景
经典使用场景
在自然语言处理领域,MR、SST1、SST2、Subj、TREC、CR和MPQA数据集广泛应用于情感分析和文本分类任务。例如,MR数据集常用于电影评论的情感极性分类,而SST1和SST2则用于细粒度和二分类情感分析。TREC数据集则用于问题分类,帮助研究者理解不同类型问题的语义结构。
解决学术问题
这些数据集解决了情感分析、文本分类和问题理解等核心学术问题。例如,MR和CR数据集通过提供标注好的评论数据,帮助研究者开发更准确的情感分类模型。SST1和SST2通过细粒度的情感标签,推动了情感分析模型的精细化发展。TREC数据集则为问题分类任务提供了标准化的基准,促进了问答系统的研究。
衍生相关工作
这些数据集衍生了许多经典的自然语言处理工作。例如,基于SST1和SST2的研究推动了递归神经网络(RNN)和长短期记忆网络(LSTM)在情感分析中的应用。TREC数据集则催生了多种问题分类算法,如支持向量机(SVM)和深度学习模型。此外,MR和CR数据集的研究成果也被广泛应用于情感分析模型的优化和评估。
以上内容由遇见数据集搜集并总结生成



