谭松波酒店评论数据集|情感分析数据集|酒店评论数据集
收藏数据集概述
- 数据集名称:基于谭松波老师的酒店评论数据集的中文文本情感分析
- 数据集标签:
pos
和neg
,分别包含2000条txt文本 - 模型基础:RNN、LSTM 和 Bi-LSTM
- 工具包版本:TensorFlow
2.0.0
、Keras2.3.1
、Python3.6.2
- 准确率:在测试集上稳定达到92%
数据集结构
- 文件结构:
.gitignore
README.md
requirements.txt
res
datanew
neg
pos
word-vector
sgns.zhihu.bigram.bz2
src
run.py
tmp
weights.hdf5
训练与调参
- 运行命令:
python src/run.py
- 参数调整:在
src/run.py
中可修改以下参数:- 初始学习率:
my_lr = 1e-2
- 测试集比例:
my_test_size = 0.1
- 验证集比例:
my_validation_split = 0.1
- 训练轮数:
my_epochs = 40
- 批大小:
my_batch_size = 128
- Dropout参数大小:
my_dropout = 0.2
- 优化方法:
my_optimizer = Nadam(lr=my_lr)
- 损失函数:
my_loss = binary_crossentropy
- 初始学习率:
工作流程
- 数据观察:
- 数据集大小
- 数据集样本
- 样本长度
- 数据预处理:
- 分词
- 短句补全、长句裁剪
- 索引化
- 构建词向量
- 模型搭建:
- RNN
- LSTM
- Bi-LSTM
- 可视化分析:
- epochs-loss
- epochs-accuracy
- 调试:
- callback
- checkpoint
- 模型改进:
- loss function
- optimizer
- learning rate
- epochs
- batch_size
- dropout
- early-stopping

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
CHARLS
中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。
charls.pku.edu.cn 收录