Emotional Dataset Chile

github2025-05-23 更新2025-05-24 收录

下载链接：

https://github.com/cypher-256/emotional-dataset-chile

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含智利西班牙语的情感文本样本，用于连续回归任务，标注了情感的正负性（valence）和强度（arousal）。

This dataset contains emotional text samples in Chilean Spanish, designed for continuous regression tasks, and is annotated with the valence and arousal of emotions.

创建时间：

2025-05-23

原始信息汇总

Emotional Dataset Chile 数据集概述

基本信息

语言: 西班牙语 (es)
地区: 智利 (chile)
许可协议: MIT
标注方式: 人工标注 (manual)
单语/多语: 单语 (monolingual)

任务与标签

任务类别: 文本分类 (text-classification)
具体任务: 情感分类 (sentiment-classification)
标签类型:
- 效价 (valence): 情感正负程度 (-1.0 到 1.0)
- 唤醒度 (arousal): 情感强度 (-1.0 到 1.0)

数据集内容

数据格式: JSON Lines (.jsonl)
文件组成:
- valencia_dataset.jsonl: 含效价标签的文本样本
- arousal_dataset.jsonl: 含唤醒度标签的文本样本
样本示例: json { "texto": "Hoy terminé mi proyecto, estoy eufórico.", "arousal": 0.91 }

使用方式

通过HuggingFace加载

python from datasets import load_dataset valencia_ds = load_dataset("cypher-256/emotional-dataset-chile", "valencia", trust_remote_code=True) arousal_ds = load_dataset("cypher-256/emotional-dataset-chile", "arousal", trust_remote_code=True)

本地加载

克隆仓库: bash git clone https://github.com/cypher-256/emotional-dataset-chile
加载数据: python from datasets import load_dataset valencia_ds = load_dataset("json", data_files="emotional-dataset-chile/valencia_dataset.jsonl", split="train") arousal_ds = load_dataset("json", data_files="emotional-dataset-chile/arousal_dataset.jsonl", split="train")

开发背景

用途: 多任务训练实验 (BERT + LoRA)
文本特征: 非正式的智利西班牙语

搜集汇总

数据集介绍

构建方式

Emotional Dataset Chile是一个专注于智利西班牙语情感分析的数据集，其构建过程融合了人工标注与半自动化技术。数据集围绕情感维度理论，针对文本的效价（valence）和唤醒度（arousal）两个核心维度进行连续值标注，范围设定在-1.0至1.0之间。数据来源主要为非正式语境下的智利西班牙语文本，通过严格的标注流程确保数据质量，最终以JSON Lines格式组织，分为独立的效价和唤醒度标注文件。

特点

该数据集最显著的特点在于其专注于智利地区特有的西班牙语变体，填补了情感计算领域对地域性语言变体研究的空白。数据集采用连续值标注体系，突破了传统离散情感分类的局限，为细粒度情感分析提供了可能。双维度（效价与唤醒度）的并行标注结构，支持多任务学习场景下的模型训练。轻量化的JSON Lines格式设计，兼顾了数据可读性与处理效率，便于研究者快速集成到现有工作流程中。

使用方法

使用者可通过Hugging Face数据集库直接加载该资源，或通过本地克隆仓库获取原始数据。加载过程支持按情感维度（效价或唤醒度）分别访问，返回标准化的数据结构。对于本地使用场景，数据集兼容常见的JSON Lines解析工具，可无缝转换为Pandas DataFrame等常用数据结构。示例代码清晰展示了数据加载、转换及预览的全流程，显著降低了使用门槛。该设计特别考虑了与BERT等预训练模型的兼容性，为基于深度学习的多任务情感分析研究提供了即用型数据支持。

背景与挑战

背景概述

Emotional Dataset Chile是由研究人员cypher-256开发的一个专注于智利西班牙语情感分析的数据集，旨在支持连续回归任务中的情感效价（valence）和唤醒度（arousal）研究。该数据集作为一项实验性项目的一部分，主要用于探索基于BERT和LoRA的多任务学习模型训练。其核心研究问题聚焦于非正式智利西班牙语文本中情感维度的量化分析，为西班牙语情感计算领域提供了重要的数据资源。该数据集的创建填补了西班牙语特别是方言变种在情感分析研究中的空白，对自然语言处理领域的情感计算子方向具有独特价值。

当前挑战

在领域问题层面，该数据集面临的主要挑战包括西班牙语方言变种的情感标注缺乏统一标准，以及连续情感维度（效价与唤醒度）的细粒度标注难度较高。构建过程中的技术挑战体现在非正式语言（如俚语、地方表达）的情感标注一致性维护，以及小规模语料下标注质量的保障。此外，智利西班牙语特有的文化语境增加了情感标注的复杂性，要求标注者具备语言学专业知识和本地文化认知。

常用场景

经典使用场景

在情感计算领域，Emotional Dataset Chile数据集为研究者提供了丰富的智利西班牙语文本资源，特别适用于连续情感回归任务。该数据集通过标注文本的效价（valence）和唤醒度（arousal），为情感分析模型的训练与评估提供了重要支持。其典型应用场景包括多任务学习框架下的情感预测，尤其是在处理非正式口语文本时表现出色。

衍生相关工作

基于该数据集衍生的经典研究包括结合BERT和LoRA的多任务学习框架优化，以及跨文化情感分析模型的比较研究。部分工作探索了方言情感特征提取的新方法，另有研究将其与其它西班牙语变体的情感数据集进行对比，揭示了地域文化对情感表达的影响规律。

数据集最近研究