TelecomSent

github2024-08-12 更新2024-08-26 收录

下载链接：

https://github.com/AliAmini93/TelecomSent

下载链接

链接失效反馈

官方服务：

资源简介：

TelecomSent是一个包含5,423条社交媒体帖子的自定义数据集，每条帖子涉及一个或多个电信运营商，为情感分析提供丰富的数据资源。

TelecomSent is a custom dataset consisting of 5,423 social media posts, each of which relates to one or more telecommunications operators, serving as a rich data resource for sentiment analysis.

创建时间：

2024-08-12

原始信息汇总

TelecomSent: 电信运营商目标情感分析

项目概述

该项目专注于从关于三大电信运营商（MTN）的社交媒体讨论中提取详细和可操作的洞察。分析基于两个主要社交媒体平台：Twitter和Facebook的数据。

我们采用传统的机器学习方法和最新的深度学习技术，包括BERT，来自动识别和提取用户意见中的关键描述符。这些描述符用于生成情感表达的结构化摘要，电信公司可以利用这些摘要识别客户痛点并衡量与竞争对手的性能。同样，客户可以使用这些摘要做出关于其电信提供商的明智选择。

为了监督学习任务，我们开发了一个自定义的人工标注数据集，称为TelecomSent，包含5,423条社交媒体帖子。每个帖子引用一个或多个电信提供商，为情感分析提供了一个丰富的数据集。

从这些帖子中提取的核心组件包括目标电信、提到的具体服务方面以及对该方面的情感表达。这种方法属于目标方面情感分析（TABSA）。

技术要求

Python 3.6+
TensorFlow
访问GPU（或使用Google Colab）
Scikit-learn
BERT-Base（Google的预训练模型）
NLTK（自然语言工具包）
NumPy 1.15.4
PyTorch 1.0.0

结果总结

下表总结了使用各种机器学习和深度学习方法取得的结果。我们使用严格准确性、Macro-F1分数和AUC评估模型，结果包括方面类别检测和情感分类。

模型	方面准确性	方面F1	方面AUC	情感准确性	情感AUC
RF-TFIDF	0.540	0.392	0.615	0.958	0.737
RF-word2vec	0.391	0.115	0.538	0.956	0.533
LR-TFIDF	0.390	0.414	0.532	0.877	0.508
LR-word2vec	0.365	0.229	0.482	0.918	0.487
LSTM	0.705	0.231	-	0.705	-
BERT	0.748	0.791	0.963	0.937	0.961

运行模型

您可以通过访问Scripts目录中提供的相应Jupyter笔记本来运行模型。

随机森林与TFIDF: 运行笔记本
随机森林与Word2Vec: 运行笔记本
逻辑回归与TFIDF: 运行笔记本
逻辑回归与Word2Vec: 运行笔记本
BERT实现: 运行笔记本
LSTM模型: 探索代码

搜集汇总

数据集介绍

构建方式

在构建TelecomSent数据集时，研究团队精心收集了来自Twitter和Facebook两大社交平台的5,423条与三大电信运营商MTN相关的社交媒体帖子。这些帖子经过人工标注，每条帖子均包含目标电信运营商、提及的具体服务方面以及对该方面的情感表达。此过程严格遵循目标方面情感分析（TABSA）的方法论，确保数据集的结构化和高质量，为后续的情感分析提供了坚实的基础。

使用方法

使用TelecomSent数据集时，用户可以通过提供的Jupyter笔记本直接运行各种机器学习和深度学习模型，如随机森林、逻辑回归和BERT等。这些笔记本详细记录了模型的训练和评估过程，用户可以根据需要选择合适的模型进行实验。此外，数据集的结构化标注使得用户可以轻松提取和分析特定服务方面的情感倾向，从而为电信运营商提供有针对性的改进建议。

背景与挑战

背景概述

TelecomSent数据集聚焦于从社交媒体讨论中提取关于三大电信运营商（MTN）的详细和可操作的见解。该数据集基于Twitter和Facebook两大社交媒体平台的数据，采用传统机器学习和先进的深度学习技术，如BERT，自动识别和提取用户意见中的关键描述符。这些描述符用于生成情感表达的结构化摘要，帮助电信公司识别客户痛点并衡量与竞争对手的绩效。TelecomSent数据集包含5,423条社交媒体帖子，每条帖子涉及一个或多个电信提供商，为情感分析提供了丰富的数据资源。

当前挑战

TelecomSent数据集面临的挑战主要集中在目标电信、提及的具体服务方面以及对这些方面的情感表达的准确提取。构建过程中，数据标注的复杂性和社交媒体文本的多样性增加了数据集的构建难度。此外，模型评估中，如RF-TFIDF和BERT等不同模型的性能差异显著，特别是在方面类别检测和情感分类的准确性上，BERT模型虽然表现优异，但仍需进一步优化以提高整体性能。

常用场景

经典使用场景

在电信行业中，TelecomSent数据集的经典使用场景主要集中在目标情感分析（Targeted Sentiment Analysis）和基于方面的情感分析（Aspect-Based Sentiment Analysis）。通过分析社交媒体上关于三大电信运营商（如MTN）的用户讨论，该数据集能够提取出具体的情感描述符，从而生成结构化的情感摘要。这些摘要不仅有助于电信公司识别客户痛点，还能帮助他们衡量自身与竞争对手的表现。

解决学术问题

TelecomSent数据集解决了情感分析领域中一个重要的学术问题，即如何从海量的社交媒体数据中提取出有针对性的情感信息。通过结合传统的机器学习方法和先进的深度学习技术（如BERT），该数据集提供了一个有效的解决方案，使得研究人员能够更精确地分析用户对特定电信服务方面的情感倾向。这不仅提升了情感分析的准确性，还为相关领域的研究提供了新的视角和方法。

实际应用

在实际应用中，TelecomSent数据集被广泛用于电信公司的客户服务优化和市场策略制定。通过分析用户在社交媒体上的反馈，电信公司可以及时调整服务策略，提升客户满意度。此外，该数据集还可用于消费者决策支持系统，帮助用户在选择电信服务提供商时做出更明智的选择。

数据集最近研究