five

proxectonos/sentimento-gl

收藏
Hugging Face2026-05-08 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/proxectonos/sentimento-gl
下载链接
链接失效反馈
官方服务:
资源简介:
用于加利西亚语情感分析的数据集,包含训练集和测试集。训练集有45,818条数据,其中正面15,610条,中性14,034条,负面16,174条;测试集有998条数据,其中正面424条,中性224条,负面350条。该数据集由Ministerio para la Transformación Digital y de la Función Pública和欧盟NextGenerationEU资助的项目开发。

Datasets to train and test language models in the task of sentiment analysis for Galician language. The two datasets (train and test) are constituted by the following entries: Training set has 45,818 entries (15,610 positive, 14,034 neutral, 16,174 negative), and test set has 998 entries (424 positive, 224 neutral, 350 negative). This work is funded by the Ministerio para la Transformación Digital y de la Función Pública - Funded by EU – NextGenerationEU within the framework of the project Desarrollo de Modelos ALIA.
提供机构:
proxectonos
搜集汇总
数据集介绍
main_image_url
构建方式
sentimento-gl 数据集专为加利西亚语的文本情感分析任务而设计,其构建过程基于对语料库的精细标注与划分。研究者从丰富的语言资源中提取文本条目,并根据情感倾向将其划分为积极、中性和消极三个类别,其中积极标注为1,中性为0,消极为2。最终形成了训练集和测试集两个子集:训练集包含45,818条样本,其中积极样本15,610条、中性样本14,034条、消极样本16,174条;测试集包含998条样本,各情感类别分布为积极424条、中性224条、消极350条。这一均衡的类别分配策略确保了模型在训练过程中能够充分学习不同情感模式的表达特征。
特点
该数据集的核心特点在于其专注于低资源语言——加利西亚语,填补了该语种在情感分析领域高质量标注数据的空白。数据集在构建时注重情感类别的多样性,三个类别样本数量分布相对均衡,避免了因数据倾斜导致的模型偏见。此外,训练集与测试集的规模差异显著,前者为后者近46倍,这种设计有助于在充分训练模型的同时,通过规模较小但精心挑选的测试集进行鲁棒性评估。数据集的发布依托于欧盟NextGenerationEU资助的ALIA模型开发项目,并由学术界引用论文验证其在处理复杂语言现象时的有效性。
使用方法
使用sentimento-gl数据集时,研究者可直接加载训练集和测试集应用于文本分类模型的训练与评估。推荐利用HuggingFace的datasets库进行快速加载,通过指定数据集名称自动获取划分好的训练和测试子集。对于模型训练,输入为加利西亚语文本,输出为情感标签(0、1或2)。由于数据集已预设标准的三分类任务格式,用户无需额外预处理即可与多数基于Transformer的模型(如BERT变体)兼容。在评估阶段,可使用测试集计算准确率、F1分数等指标,并参考相关论文中的实验结果进行对比,以验证模型在加利西亚语情感分析上的性能表现。
背景与挑战
背景概述
在自然语言处理领域,情感分析是文本分类任务中的核心研究方向之一,旨在自动识别文本中蕴含的情感倾向。然而,低资源语言的情感分析研究长期面临标注数据匮乏的困境,限制了该语言相关技术的进步。sentimento-gl数据集正是在这一背景下于2025年由Anxo Alonso和Pablo Gamallo等研究人员开发而成,专注于加利西亚语这一区域性语言的情感分析任务。该数据集包含训练集45,818条样本和测试集998条样本,涵盖正面、中性和负面三种情感类别,其发布弥补了加利西亚语在情感分析标注资源上的空白。研究团队依托西班牙数字化转型与公共职能部资助的ALIA模型开发项目,确保了数据集构建的系统性与规范性。该数据集不仅为加利西亚语情感分析提供了基准评估资源,更有望推动低资源语言在情感计算领域的学术研究与应用落地。
当前挑战
sentimento-gl数据集所应对的核心领域挑战在于,低资源语言的情感分析模型往往因缺乏大规模高质量标注语料而表现不佳,难以捕捉加利西亚语在语法结构、词汇多样性及文化语境中的情感表达差异。在构建过程中,研究者面临多重困难:首先,需要从网络文本等来源采集大量未经标注的原始语料,并设计合理的标注方案以平衡三类情感样本的分布,最终实现了训练集中正面15,610条、中性14,034条、负面16,174条的相对均衡配置;其次,针对加利西亚语中存在的歧义性表达、俚语及混合语言现象,标注过程需遵循严格的质量控制流程,但测试集仅有998条样本,暴露出在细粒度情感识别和复杂情感模式建模上的局限性;此外,数据集的情感标签基于单一维度划分,难以处理讽刺、反问等隐含情感表达,这为后续模型在真实场景中的泛化能力埋下了挑战。
常用场景
经典使用场景
sentimento-gl数据集是专为加利西亚语情感分析任务精心构建的基准资源,涵盖训练集和测试集共超过四万六千条标注样本,情感类别分为正面、中性和负面三种。该数据集最经典的使用场景在于训练和评估面向加利西亚语的情感分类模型,研究者可凭借其大规模且类别均衡的标注数据,系统性地对比不同深度学习架构或预训练语言模型在低资源语言情感分析任务上的表现。
实际应用
在实际应用中,sentimento-gl数据集支撑了加利西亚语社交媒体舆情监测、用户评论情感倾向分析及公共服务反馈自动分类等场景。企业或政府机构可借助基于该数据集训练的模型,实时洞察加利西亚语区域公众对政策、产品或事件的情感态度,从而辅助决策制定。其成果对于促进西班牙境内加利西亚语地区的数字化服务本地化具有显著价值。
衍生相关工作
围绕sentimento-gl数据集,衍生了一系列探索加利西亚语大语言模型情感理解能力的经典工作,如Alonso与Gamallo(2025)在《Procesamiento del Lenguaje Natural》上发表的系统评估研究。该工作利用该数据集评测了多种预训练模型在挑战性语言学现象上的表现,为后续面向加利西亚语的模型改进与跨语言情感迁移学习研究提供了宝贵基线。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作