Fake-Reviews-Detection|假评论检测数据集
收藏虚假评论检测数据集
问题陈述
该项目的目标是从包含多个类别(如家居和办公室、体育等)的大型数据集中识别虚假评论。每条评论都附带一个评分、一个标签(指示评论是计算机生成(CG)还是原始人类创建(OR))以及评论文本本身。
主要挑战是确定给定的评论是否为欺诈性评论。计算机生成的评论被视为虚假,而人类创建的评论被视为真实。
描述
该项目使用的数据集包括20,000条虚假评论和20,000条真实产品评论。原始评论(OR)被认为是人类创建的,是真实的,而计算机生成(CG)的评论被标记为虚假。
使用的Python库和包
- Numpy:用于数值计算
- Pandas:用于数据操作和分析
- Matplotlib.pyplot:用于数据可视化
- Seaborn:用于统计数据可视化
- Warnings:用于管理警告
- nltk:用于自然语言处理
- nltk.corpus:用于访问文本语料库
- String:用于字符串操作
- sklearn.naive_bayes:用于实现朴素贝叶斯分类器
- sklearn.feature_extraction:用于特征提取
- sklearn.model_selection:用于将数据分割为训练集和测试集
- sklearn.ensemble:用于集成方法,如随机森林
- sklearn.tree:用于决策树算法
- sklearn.linear_model:用于线性模型,如逻辑回归
- sklearn.svc:用于支持向量分类器
- sklearn.neighbors:用于K近邻算法
采用的文本预处理技术
- 去除标点符号
- 将文本转换为小写
- 消除停用词
- 词干提取
- 词形还原
- 去除数字
用于文本向量化和标准化的转换器
- CountVectorizer:词袋模型转换器
- TFIDF:词频-逆文档频率转换器
实现的机器学习算法
- 逻辑回归
- K近邻
- 支持向量分类器
- 决策树分类器
- 随机森林分类器
- 多项式朴素贝叶斯
机器学习模型的性能总结
- 逻辑回归:预测准确率为68.86%
- K近邻:预测准确率为66.92%
- 支持向量机:预测准确率为73.1%
- 决策树分类器:预测准确率为63.94%
- 随机森林分类器:预测准确率为68.86%
- 多项式朴素贝叶斯:预测准确率为84.63%
在所有模型中,多项式朴素贝叶斯算法在检测虚假评论方面表现出最高的预测准确率,达到84.63%。支持向量机分类器也表现良好,准确率为73.1%。逻辑回归和随机森林的准确率均为68.86%。K近邻算法的预测准确率为66.92%,而决策树分类器的性能最低,准确率为63.94%。

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
RADIOML 2016.10A
一个合成数据集,使用GNU Radio生成,包含11种调制方式(8种数字和3种模拟),信号噪声比各异。该数据集首次在第六届年度GNU Radio会议上发布。
github 收录
LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录