five

电信客户评论数据集

收藏
arXiv2025-04-18 更新2025-04-22 收录
下载链接:
http://arxiv.org/abs/2504.13653v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了英国29个电信品牌的客户在线评论,数据来源于Trustpilot平台。研究通过词嵌入技术,如Word2Vec、FastText、BERT和Doc2Vec等,对评论进行分类,以区分不同客户满意度级别。数据集用于比较不同词嵌入方法和特征提取技术对分类任务的影响,包括精确度、召回率和F1分数等性能指标。研究中还考虑了特征工程和维度降低的重要性,并探索了PCA在不同词嵌入中的应用,以及机器学习模型在训练和使用过程中的能耗问题。

This dataset comprises online customer reviews for 29 British telecommunications brands, collected from the Trustpilot platform. The research applies word embedding technologies including Word2Vec, FastText, BERT and Doc2Vec to classify the reviews, aiming to distinguish between different levels of customer satisfaction. The dataset is used to compare the impacts of various word embedding methods and feature extraction techniques on classification tasks, with performance metrics such as precision, recall and F1-score. The study also considers the significance of feature engineering and dimensionality reduction, explores the application of PCA across different word embeddings, and investigates the energy consumption issues of machine learning models during their training and inference stages.
提供机构:
普利茅斯大学数学科学中心
创建时间:
2025-04-18
搜集汇总
数据集介绍
main_image_url
构建方式
电信客户评论数据集的构建基于从Trustpilot平台爬取的英国29家电信品牌的客户评论,共计367,000条。每条评论均附有用户给出的星级评分(1至5星),构成带标签数据集。研究团队通过随机抽样创建了三种类型的数据集:极端二元数据集(1星与5星)、混合二元数据集(1-2星与4-5星)以及多类数据集(1-5星均衡分布),每种类型分别包含1,000、5,000和10,000条评论样本。数据预处理阶段采用文本清洗工具去除特殊字符、统一字母大小写并过滤非英语内容,最终形成包含‘Text’(清洗后评论)和‘Type’(分类标签)两列的结构化数据。
特点
该数据集的核心特点在于其多维度标注体系与真实场景适用性。每条评论不仅包含原始文本,还关联了细粒度的星级评分,支持从极端情感分析到多级满意度预测的多种研究任务。数据分布上,通过人工设计的二元和五类分类场景,既涵盖直观的极端情感对比(如1星与5星),也包含更具挑战性的模糊情感区分(如混合二元分类)。此外,文本长度普遍较短,符合真实在线评论特征,对短文本分类模型的鲁棒性提出了较高要求。数据集的另一显著特点是其领域特异性,所有评论均来自电信服务场景,为研究垂直领域的自然语言处理提供了高质量语料。
使用方法
该数据集支持多种自然语言处理任务的应用流程。研究使用时需先加载预处理后的文本和标签数据,随后采用九种词嵌入方法(包括Word2Vec、FastText、BERT等)将文本转化为数值向量,其中部分方法需配合PCA降维技术。向量化后的数据可输入至七种分类模型(如随机森林、梯度提升等)进行训练,通过五折交叉验证评估性能指标(F1分数、精确率、召回率)。实验设计建议遵循原文的对比框架,重点考察不同词嵌入与分类器的组合效果,同时可扩展分析计算能耗与模型精度的平衡关系。对于实际应用,推荐优先测试BERT-PCA在多类分类任务中的表现,或Word2Vec-PCA在逻辑回归模型中的高效组合。
背景与挑战
背景概述
电信客户评论数据集由普利茅斯大学数学科学中心的Hesham Abdelmotaleb、Craig McNeile和Małgorzata Wojtyś等研究人员于2025年创建,旨在通过自然语言处理技术分析电信客户的在线评论,以预测客户满意度星级评分。该数据集包含来自Trustpilot平台的367,000条英国电信品牌客户评论,每条评论均标注了1至5星的评分。研究重点是比较不同词嵌入技术(如BERT、Word2Vec、FastText和Doc2Vec)在文本分类任务中的性能,并探讨特征工程和降维方法对分类效果的影响。该数据集为电信行业客户反馈分析提供了重要资源,推动了情感分析和客户流失预测等领域的研究。
当前挑战
电信客户评论数据集面临的主要挑战包括:1) 领域问题的挑战:短文本情感分类的复杂性,尤其是区分相近星级(如3星与4星)的语义差异;2) 数据构建挑战:评论数据的稀疏性和噪声处理,需清除非英语字符和无关内容;3) 特征工程挑战:高维词向量(如BERT的384维)的降维需求,传统平均池化方法可能丢失关键信息;4) 计算资源挑战:深度词嵌入模型(如FastText)训练能耗高,需平衡性能与碳排放。此外,多分类任务中类别不平衡问题(如极端评分占比高)也增加了模型优化难度。
常用场景
经典使用场景
电信客户评论数据集在自然语言处理领域被广泛用于情感分析和文本分类任务。该数据集通过收集电信客户的在线评论和星级评分,为研究者提供了一个丰富的语料库,用于探索不同词嵌入技术在短文本分类中的表现。经典使用场景包括利用BERT、Word2Vec和Doc2Vec等词嵌入模型将文本转换为数值向量,并结合多种分类算法(如随机森林、逻辑回归等)进行星级评分的预测。
解决学术问题
该数据集解决了文本分类中的多个关键学术问题,包括特征工程的高维处理、不同词嵌入技术的性能比较以及分类算法的效率评估。通过引入主成分分析(PCA)进行降维,该研究展示了如何在保持分类性能的同时减少计算复杂度。此外,数据集还探讨了能源消耗问题,为绿色计算提供了实证依据。
衍生相关工作
该数据集衍生了一系列经典研究工作,包括对不同词嵌入技术(如FastText、GloVe)在短文本分类中的性能比较,以及PCA在特征提取中的应用优化。相关研究还扩展到了多语言情感分析领域,例如阿拉伯语评论的分类任务。此外,数据集的能源消耗分析为后续绿色AI研究提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作