IMDB Movie Reviews Dataset|电影评论数据集|情感分析数据集
收藏IMDB电影评论数据集
数据集概述
- 数据内容:包含25,000条正面评论和25,000条负面评论的电影评论。
- 数据格式:CSV文件,包含“review”文本和“sentiment”标签(正面/负面)两列。
数据预处理
- 文本清洗:
- 小写转换:将所有文本转换为小写。
- 标点符号移除:可选步骤,移除逗号、句号等标点符号。
- 停用词移除:移除“the”、“a”、“an”等常见词。
- 词干提取/词形还原:将单词还原为词根形式(如“running” -> “run”)。
特征工程
- 文本转换为数值:
- 词袋模型(BoW):创建稀疏向量表示词频。
- 词嵌入:使用Word2Vec或GloVe等技术,将单词表示为密集向量,捕捉语义关系。
深度学习模型选择与训练
- 模型选择:
- 长短期记忆网络(LSTM):擅长捕捉文本中的序列信息。
- 卷积神经网络(CNN):结合词嵌入技术,学习序列中的模式。
- 模型训练:
- 数据分割:将数据集分为训练集和验证集(如80%/20%)。
- 训练过程:使用处理后的特征和相应的情感标签(正面/负面)训练模型。
- 超参数调优:调整学习率、优化器、层数等超参数,以优化模型性能。
模型评估与预测
- 评估指标:
- 准确率:正确分类的评论比例。
- 精确度:正确预测的正面评论占预测正面评论总数的比例。
- 召回率:正确预测的正面评论占实际正面评论的比例。
- F1分数:精确度和召回率的调和平均值。
- 新评论预测:使用训练好的模型预测新评论的情感,根据预测分数(通常在0到1之间)分类为正面或负面。
其他考虑
- 类别不平衡:处理正面或负面评论数量不平衡的问题,如过采样/欠采样或使用成本敏感学习算法。
- 集成方法:结合多个训练好的模型的预测结果,使用投票或堆叠等技术提高整体准确性。
使用的库和工具
- Python库:使用TensorFlow/Keras构建深度学习模型,pandas进行数据处理,NLTK进行自然语言处理任务。
- 云平台:考虑使用Google Colab等云平台,便于访问计算资源。

LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
网易云音乐数据集
该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。
github 收录