emosi

github2024-12-13 更新2024-12-14 收录

下载链接：

https://github.com/DzakaAl/CurhatKu

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于情感分类，包含从CSV文件中提取的目标和特征，用于训练和测试机器学习模型。

This dataset is designed for sentiment classification, comprising targets and features extracted from CSV files, and is utilized for training and testing machine learning models.

创建时间：

2024-11-23

原始信息汇总

CurhatKu 数据集概述

数据集来源

数据集从 Hugging Face 下载，链接为：Hugging Face Dataset

数据集处理

目标和特征定义：
- df[label] 作为目标
- df[text] 作为特征
数据分割：
- 80% 用于训练数据
- 20% 用于测试数据

模型训练

模型架构：
- 使用 GRU（Gated Recurrent Units）提高模型准确性
- 使用 SparseCategoricalCrossentropy 作为损失函数
- 使用 Adam 作为优化器
- 添加了多个层以提高模型准确性：
  - Embedding 层
  - GRU(64, return_sequences=True, activation=relu) 层
  - GRU(32, return_sequences=False, activation=relu) 层
  - Dropout(0.5) 层
  - Dense(units=8, activation=Softmax) 层
训练结果：
- loss: 17%
- accuracy: 96%
- val_loss: 23%
- val_accuracy: 94%

模型保存

模型保存为 .keras 格式

搜集汇总

数据集介绍

构建方式

该数据集名为emosi，其构建过程依托于Google Colab平台，充分利用了TensorFlow框架进行情感分类模型的训练。数据集的获取源自Hugging Face平台，通过下载CSV文件并进行预处理，定义了`df['label']`作为目标变量，`df['text']`作为特征变量。数据集被划分为80%的训练数据和20%的测试数据，以确保模型的泛化能力。训练过程中，采用了GRU（Gated Recurrent Units）网络结构，结合`SparseCategoricalCrossentropy`损失函数和`Adam`优化器，通过多层嵌入和GRU层的设计，显著提升了模型的准确性。

特点

emosi数据集的显著特点在于其情感分类的高准确性，训练后的模型在测试集上达到了96%的准确率，验证集上的准确率也高达94%。此外，数据集的构建过程中采用了先进的GRU网络结构，能够有效捕捉文本中的情感特征。数据集的预处理步骤严谨，确保了数据的质量和一致性，为后续的情感分析提供了坚实的基础。

使用方法

使用emosi数据集时，用户首先需从Hugging Face平台下载数据集，并进行必要的预处理，包括定义目标和特征变量。随后，用户可以在Google Colab平台上加载预训练的模型，或根据需求重新训练模型。模型的训练过程可通过调整GRU层数、优化器参数等进行优化。训练完成后，模型可保存为`.keras`格式，便于后续部署和应用。

背景与挑战

背景概述

随着全球心理健康问题的日益突出，尤其是在印度尼西亚，约有9.8%的人口受到心理健康问题的困扰，而社会对心理健康的污名化和资源匮乏使得许多人难以获得必要的支持。CurhatKu数据集应运而生，旨在通过提供一个安全、无污名的平台，促进自我表达和专业支持，从而帮助用户管理心理健康。该数据集由Google、Tokopedia、Gojek和Traveloka联合发起的Bangkit Academy项目开发，主要研究人员包括M. Dzaka Al Fikri等人。其核心研究问题是如何通过AI技术从论坛帖子中检测情绪，并提供个性化的支持。这一研究不仅填补了心理健康领域的技术空白，还为未来的心理健康应用提供了宝贵的数据和模型基础。

当前挑战

CurhatKu数据集在构建过程中面临多项挑战。首先，如何从大量的论坛帖子中准确提取情感标签，并确保数据集的多样性和代表性，是一个技术难题。其次，在模型训练过程中，使用GRU（Gated Recurrent Units）等复杂模型虽然提高了准确性，但也增加了计算资源的消耗和模型优化的难度。此外，数据集的隐私保护和伦理问题也是不容忽视的挑战，尤其是在处理敏感的心理健康数据时，如何确保用户隐私和数据安全是至关重要的。最后，如何将训练好的模型高效地部署到移动端和云端，以实现实时情感检测和个性化支持，也是该数据集面临的一大技术挑战。

常用场景

经典使用场景

emosi数据集在情感分析领域展现了其经典应用场景。该数据集通过收集和标注用户在匿名论坛中的文本内容，结合机器学习模型，尤其是基于GRU的深度学习架构，能够精准地识别和分类用户的情感状态。这种情感分类不仅为心理健康应用提供了个性化支持，还为研究者提供了丰富的情感数据资源，用于探索情感与心理健康之间的复杂关系。

衍生相关工作

基于emosi数据集，研究者们开展了一系列相关工作。首先，许多研究聚焦于优化情感分类模型，通过引入更复杂的神经网络结构或改进训练算法，进一步提升情感识别的准确性。其次，一些研究探讨了情感数据与心理健康指标的关联，开发了更为精准的心理健康评估工具。此外，该数据集还激发了跨学科研究，如结合社会学和心理学，探讨情感表达对社会互动的影响。

数据集最近研究