RajyaSabha_Dataset

github2023-02-26 更新2024-05-31 收录

下载链接：

https://github.com/shreyashegde2891/Semi-Supervised-Aspect-Sentiment-RajyaSabha_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于半监督方面情感分析研究，专注于印度议会上院的提问时间数据，用于提取方面术语和进行情感分析。

This dataset is utilized for research in semi-supervised aspect-based sentiment analysis, focusing on the question hour data from the upper house of the Indian Parliament, aimed at extracting aspect terms and conducting sentiment analysis.

创建时间：

2020-11-10

原始信息汇总

数据集概述

数据处理与模型训练

数据预处理与LDA:
- create_train_csv.ipynb: 用于清洗和转换数据，创建用于无监督注意力基于方面提取的中间训练文件。
- LDA.ipynb: 用于确定最佳的方面大小（聚类数），该值作为无监督ATAE的输入种子。
无监督ATAE:
- <input_dir>: 存放清洗和转换后的数据集，用于无监督ATAE。
- word2vec.ipynb: 用于创建word2vec模型。
- train.ipynb: 用于训练模型以生成方面术语和类别。
监督ABSA:
- input.csv: 用于监督ABSA的输入数据集，包含从无监督ATAE模型生成的方面术语和情感标签。
- train.ipynb: 用于训练TC-LSTM, TD-LSTM, ATAE-LSTM和MEMNET模型。

模型性能

LDA Coherence Scores:
- 不同主题大小的Coherence Score。
无监督ATAE性能:
- 针对不同领域的精确度、召回率和F1分数。
监督ABSA性能:
- 不同模型的准确度和F1分数，使用word2vec和GloVe两种嵌入类型。

数据集要求

glove.42B.300d.zip需下载并放置于Semi-Supervised-Aspect-Sentiment-RajyaSabha_Dataset/Supervised ABSA/data/目录下。

搜集汇总

数据集介绍

构建方式

RajyaSabha_Dataset的构建过程采用了半监督学习方法，结合了无监督和有监督的技术路径。首先，通过LDA（Latent Dirichlet Allocation）模型确定最佳的主题数量，以此作为无监督ATAE（Attention Based Aspect Extraction）模型的输入。随后，利用Word2Vec模型生成词向量，进一步训练无监督ATAE模型以提取方面词和类别。最后，基于无监督模型生成的方面词和情感标签，构建有监督的ABSA（Aspect-Based Sentiment Analysis）模型，涵盖TC-LSTM、TD-LSTM、ATAE-LSTM和MEMNET等多种模型。

特点

RajyaSabha_Dataset涵盖了多个领域的数据，包括航空、银行与金融、商品、教育与外交等，具有广泛的主题覆盖性。数据集通过无监督ATAE模型实现了高精度的方面词提取，平均F1分数达到0.90，展现了其在多类别分类任务中的优越性能。此外，有监督ABSA模型的实验结果进一步验证了数据集的有效性，其中ATAE-LSTM模型在GloVe嵌入下取得了0.9的准确率和0.89的F1分数，显著优于其他模型。

使用方法

使用RajyaSabha_Dataset时，需首先下载并配置GloVe预训练词向量文件，并将其放置在指定目录中。随后，通过运行提供的Jupyter Notebook文件，依次完成数据预处理、LDA主题建模、无监督ATAE模型训练以及有监督ABSA模型的训练与评估。用户可根据需求调整模型参数，例如主题数量或嵌入类型，以优化模型性能。数据集的结构化设计和详细的代码注释为研究者提供了便捷的实验环境。

背景与挑战

背景概述

RajyaSabha_Dataset是一个专注于半监督学习的方面情感分析数据集，旨在通过结合无监督和有监督的方法，提取文本中的方面词并分析其情感倾向。该数据集由研究团队在自然语言处理领域开发，主要用于解决印度议会议事记录中的情感分析问题。通过使用潜在狄利克雷分配（LDA）模型确定最佳主题数量，并结合基于注意力的无监督模型（ATAE）生成方面词和情感标签，该数据集为后续的有监督模型训练提供了高质量的数据基础。RajyaSabha_Dataset的创建不仅推动了方面情感分析技术的发展，还为处理复杂文本数据提供了新的研究思路。

当前挑战

RajyaSabha_Dataset在构建和应用过程中面临多重挑战。首先，方面情感分析本身具有较高的复杂性，尤其是在处理多主题、多情感倾向的文本时，如何准确提取方面词并分类情感是一个核心难题。其次，数据集的构建依赖于无监督模型生成标签，这可能导致标签噪声，影响有监督模型的训练效果。此外，数据预处理阶段需要对原始文本进行清洗和转换，这一过程耗时且容易引入偏差。最后，不同模型（如TC-LSTM、ATAE-LSTM等）在数据集上的表现差异显著，如何选择最优模型并进一步提升其性能，仍是未来研究的重要方向。

常用场景

经典使用场景

RajyaSabha_Dataset在自然语言处理领域中被广泛应用于情感分析和主题建模。该数据集通过半监督学习方法，结合LDA（潜在狄利克雷分配）和ATAE（基于注意力的方面提取）模型，有效识别和分类文本中的情感和主题。这种方法的优势在于能够处理大规模、非结构化的文本数据，特别适用于政治、经济等领域的文本分析。

衍生相关工作

RajyaSabha_Dataset的发布催生了多项相关研究工作。基于该数据集，研究者们开发了多种改进的情感分析模型，如结合GloVe词嵌入的ATAE-LSTM模型，进一步提升了情感分类的准确性。此外，该数据集还被用于跨领域研究，如结合社会学和政治学的文本分析，探索公众对政策变化的反应模式，为多学科交叉研究提供了宝贵的数据资源。

数据集最近研究