ROCLING-SIGAI 2025 Shared Task Dataset on Dimensional Sentiment Analysis

github2025-10-18 更新2025-10-19 收录

下载链接：

https://github.com/hlshao/114_1_TMU_NLPWS

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于中文文本在词和短语层面的维度情感分析，预测效价（积极-消极）和唤醒度（平静-兴奋）的强度得分，范围通常为1到9。数据集包含带标注的中文词/短语及其效价和唤醒度分数，主要用于研究和教育目的，特别是在台北医学大学的自然语言处理与大型语言模型工作坊课程中作为教学材料使用。

This dataset is designed for dimensional sentiment analysis of Chinese texts at the word and phrase level, tasked with predicting the intensity scores of valence (positive-negative) and arousal (calm-excited), which typically range from 1 to 9. The dataset contains annotated Chinese words and phrases along with their valence and arousal scores, and is mainly used for research and educational purposes, particularly as teaching materials in the Natural Language Processing and Large Language Model Workshop courses at Taipei Medical University.

创建时间：

2025-09-20

原始信息汇总

数据集概述

基本信息

数据集名称：ROCLING-SIGAI 2025共享任务数据集（用于TMU自然语言处理与LLM工作坊）
主要用途：维度情感分析任务的教学与研究
应用场景：台北医学大学自然语言处理与大型语言模型工作坊课程教学材料

任务描述

输入：中文词语或短语
输出：效价（Valence）和唤醒度（Arousal）得分（1-9分范围）
评估指标：皮尔逊相关系数和均方误差（MSE）

数据集组成

训练集：带有效价和唤醒度标注的中文词语/短语
验证集：用于模型调优
测试集：隐藏黄金标准标签，用于排行榜评估
TMU工作坊专用测试集：课堂练习使用的变体测试集

数据格式

每行数据包含以下字段：

id：标识符
text：中文词语或短语
valence：效价值（浮点数）
arousal：唤醒度值（浮点数）

示例数据：

id,text,valence,arousal 001,快樂,7.8,6.3 002,憤怒,2.1,7.5

技术实现

基线方法

模型架构：TF-IDF + Ridge回归
特征提取：n-gram范围(1,2)，最小文档频率2，最大特征数200000
评估方式：5折交叉验证

环境要求

Python版本：3.10+
核心依赖：pandas、scikit-learn、scipy、numpy
可选依赖：torch、transformers（用于Transformer基线）

文件结构

. ├── data/ │ ├── Train_Data.csv │ └── Test_Data.csv ├── src/ │ └── baseline.py └── README.md

预测文件格式

id,valence,arousal 001,7.61,6.12 002,2.05,7.42

增强基线方法

字符感知TF-IDF：使用字符级n-gram特征
树基模型：随机森林或XGBoost回归器
Transformer编码器回归：使用中文预训练模型进行微调

许可与引用

数据集来源于ROCLING-SIGAI 2025共享任务
仅用于研究和教学目的
使用需引用相关研究工作

搜集汇总

数据集介绍

构建方式

在情感计算研究领域，ROCLING-SIGAI 2025共享任务数据集通过系统化标注流程构建而成。该数据集以中文词汇与短语为处理单元，由专业标注人员依据环形情感模型理论，对每个文本单元在效价与唤醒度两个维度进行1至9分的连续评分。标注过程采用严格的质控机制，最终形成包含训练集、验证集与测试集的完整架构，其中测试集标签经特殊隐藏处理以保障评估客观性。

特点

该数据集在情感分析领域展现出多维度特性，其核心价值在于同时捕捉情感的效价与唤醒度双维度特征。数据单元涵盖从基础词汇到复合短语的中文语言结构，有效支撑细粒度情感建模需求。数据集采用标准化CSV格式存储，每个条目均包含唯一标识符、文本内容及双维度浮点数值，既满足机器学习模型的输入规范，又为跨研究对比提供便利。特别值得注意的是，该数据集设计了教学专用变体测试集，体现了其兼顾科研与教育的双重使命。

使用方法

针对该数据集的应用实践，研究者可通过标准化流程开展模型开发。典型工作流始于环境配置，建议使用Python 3.10及以上版本，并安装pandas、scikit-learn等基础依赖库。模型构建阶段提供多层次方案：从基于TF-IDF特征与岭回归的轻量级基线，到集成预训练Transformer的深度学习方法。评估环节采用皮尔逊相关系数与均方误差双指标体系，确保模型性能的全面衡量。对于教学场景，数据集支持通过参数化脚本快速适配变体测试集，实现课程练习与正式研究的无缝衔接。

背景与挑战

背景概述

维度情感分析作为情感计算领域的重要分支，旨在突破传统离散情感分类的局限，通过连续数值精确刻画情感状态。ROCLING-SIGAI 2025共享任务数据集由台北医科大学自然语言处理团队主导构建，聚焦中文词汇与短语层级的效价-唤醒度双维度情感强度预测。该数据集延续了自IALP 2016以来中文维度情感分析的研究脉络，通过系统标注1-9分值的连续情感标签，为教育场景下的机器学习模型训练提供标准化基准。其创新性体现在将心理学领域的环状情感模型与自然语言处理技术深度融合，推动中文情感计算从分类范式向回归范式的转型发展。

当前挑战

维度情感分析面临的核心挑战在于解决情感连续空间的精准建模问题，包括词汇多义性导致的情感歧义、语境缺失对情感强度判断的干扰，以及文化特定表达带来的标注一致性难题。数据集构建过程中需克服标注者主观差异对连续分值的影响，确保跨标注者信度达到科研标准。同时，中文特有的字符组合特性与情感表达方式，要求标注体系兼顾语言学规律与心理学理论基础。技术层面需平衡传统特征工程与深度学习方法的互补性，在有限标注数据下实现泛化性能提升，这对模型架构设计与特征表示学习提出更高要求。

常用场景

经典使用场景

在情感计算研究领域，该数据集为中文文本的维度情感分析提供了标准评测基准。研究者通常利用其标注的效价-唤醒度双维度分数，构建回归模型预测词汇与短语的情感强度，通过皮尔逊相关系数与均方误差指标验证模型性能。这一场景广泛应用于比较传统机器学习与深度学习方法的优劣，尤其在探索语言特征与情感维度映射关系方面具有重要价值。

衍生相关工作

基于该数据集衍生的经典研究呈现出多层次的技术演进。早期工作如Wang等人提出的社区加权图模型奠定了基础特征工程范式，后续研究逐步发展为深度神经网络架构，如Yu团队设计的树状区域CNN-LSTM混合模型。近年来，Transformer架构的融合创新成为主流，Deng等人提出的多模态特征融合方法显著提升了预测精度，这些工作共同推动了维度情感分析技术体系的完善。

数据集最近研究