谭松波酒店评论数据集|情感分析数据集|酒店评论数据集

github2024-05-21 更新2024-05-31 收录

情感分析

酒店评论

下载链接：

https://github.com/lunarwhite/tan-division

下载链接

链接失效反馈

资源简介：

基于谭松波老师的酒店评论数据集的中文文本情感分析，二分类问题。数据集标签有`pos`和`neg`，分别包含2000条txt文本。

Sentiment analysis of Chinese text based on Professor Tan Songbo's hotel review dataset, a binary classification problem. The dataset labels are `pos` and `neg`, each containing 2000 txt texts.

创建时间：

2021-05-24

原始信息汇总

数据集概述

数据集名称：基于谭松波老师的酒店评论数据集的中文文本情感分析
数据集标签：pos 和 neg，分别包含2000条txt文本
模型基础：RNN、LSTM 和 Bi-LSTM
工具包版本：TensorFlow 2.0.0、Keras 2.3.1、Python 3.6.2
准确率：在测试集上稳定达到92%

数据集结构

文件结构：
- .gitignore
- README.md
- requirements.txt
- res
  - datanew
    - neg
    - pos
  - word-vector
    - sgns.zhihu.bigram.bz2
- src
  - run.py
- tmp
  - weights.hdf5

训练与调参

运行命令：python src/run.py
参数调整：在 src/run.py 中可修改以下参数：
- 初始学习率：my_lr = 1e-2
- 测试集比例：my_test_size = 0.1
- 验证集比例：my_validation_split = 0.1
- 训练轮数：my_epochs = 40
- 批大小：my_batch_size = 128
- Dropout参数大小：my_dropout = 0.2
- 优化方法：my_optimizer = Nadam(lr=my_lr)
- 损失函数：my_loss = binary_crossentropy

工作流程

数据观察：
- 数据集大小
- 数据集样本
- 样本长度
数据预处理：
- 分词
- 短句补全、长句裁剪
- 索引化
- 构建词向量
模型搭建：
- RNN
- LSTM
- Bi-LSTM
可视化分析：
- epochs-loss
- epochs-accuracy
调试：
- callback
- checkpoint
模型改进：
- loss function
- optimizer
- learning rate
- epochs
- batch_size
- dropout
- early-stopping

AI搜集汇总

数据集介绍

构建方式

谭松波酒店评论数据集的构建基于对大量酒店评论文本的收集与标注。该数据集包含4000条评论，分为正面和负面两类，每类各2000条。这些评论经过精心筛选和标注，确保其情感倾向的准确性。数据集的构建过程中，采用了自然语言处理技术对文本进行预处理，包括分词、短句补全和长句裁剪，以确保数据的质量和一致性。

特点

谭松波酒店评论数据集的主要特点在于其情感分类的明确性和数据量的适中。该数据集不仅提供了丰富的文本数据，还通过精细的标注确保了每条评论的情感倾向。此外，数据集的结构化设计使得其易于集成到各种情感分析模型中，特别是基于RNN、LSTM和Bi-LSTM的深度学习模型。

使用方法

使用谭松波酒店评论数据集进行情感分析时，首先需要克隆GitHub仓库并安装所需的Python库。接着，用户可以通过运行`src/run.py`脚本进行模型训练，并根据需要调整参数如学习率、批大小和训练轮数。数据集的预处理步骤包括分词和词向量构建，这些步骤确保了文本数据能够被模型有效利用。通过可视化分析工具，用户可以监控训练过程中的损失和准确率，从而优化模型性能。

背景与挑战

背景概述

谭松波酒店评论数据集是由谭松波老师主导创建的，专注于中文文本情感分析的二分类问题。该数据集包含了2000条正面和2000条负面的酒店评论文本，旨在为研究者提供一个标准化的数据集，以评估和改进情感分析模型。通过使用TensorFlow和Keras等现代机器学习工具，研究者可以选择RNN、LSTM和Bi-LSTM等模型进行训练，从而在测试集上达到高达92%的准确率。这一数据集的创建不仅推动了中文情感分析领域的发展，也为相关研究提供了坚实的基础。

当前挑战

尽管谭松波酒店评论数据集在情感分析领域取得了显著成果，但其构建和应用过程中仍面临若干挑战。首先，数据集的规模相对较小，可能限制了模型的泛化能力。其次，中文文本的复杂性，包括多义词和语法结构的多样性，增加了分词和预处理的难度。此外，模型的选择和参数调优也是一个复杂的过程，需要大量的实验和经验积累。最后，随着情感分析技术的不断进步，如何持续更新和扩展数据集以保持其前沿性和实用性，也是一个重要的研究方向。

常用场景

经典使用场景

谭松波酒店评论数据集在自然语言处理领域中，主要用于中文文本情感分析的二分类任务。该数据集包含2000条正面和2000条负面评论，为研究者提供了一个标准化的基准，用于评估和比较不同情感分析模型的性能。通过使用RNN、LSTM和Bi-LSTM等深度学习模型，研究者可以探索这些模型在中文文本情感分类中的表现，从而推动情感分析技术的发展。

解决学术问题

该数据集解决了中文文本情感分析中的关键学术问题，即如何准确地将中文评论分类为正面或负面情感。这一问题在自然语言处理领域具有重要意义，因为它不仅有助于理解用户对产品的真实反馈，还能为情感分析算法的研究提供实证数据支持。通过该数据集，研究者可以验证和优化情感分析模型，提高其在实际应用中的准确性和可靠性。

衍生相关工作

基于谭松波酒店评论数据集，研究者已开展多项相关工作，包括改进情感分析模型的结构和参数设置，以及探索不同词向量表示对情感分类性能的影响。此外，该数据集还促进了跨语言情感分析的研究，通过对比中文和英文等其他语言的情感分类模型，揭示了不同语言在情感表达上的差异。这些研究成果为情感分析领域的进一步发展提供了宝贵的理论和实践基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

CHARLS

中国健康与养老追踪调查（CHARLS）数据集，旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据，用以分析人口老龄化问题，内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录