SentiBench

arXiv2016-07-15 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/1512.01818v5

下载链接

链接失效反馈

官方服务：

资源简介：

包含十八个标注数据集的基准，涵盖社交媒体上的消息、电影和产品评论以及新闻文章中的意见和评论。

A benchmark comprising eighteen annotated datasets, covering opinions and comments from social media messages, movie and product reviews, as well as news articles.

创建时间：

2015-12-07

搜集汇总

数据集介绍

构建方式

在情感分析领域，为系统评估大型语言模型的性能，SENTIBENCH的构建遵循了严谨的学术范式。该基准的构建始于对现有公开数据集的精心筛选与重组，覆盖了基础情感分析、多维度情感分析及细粒度情感分析三大典型类别，共计12个数据集。为确保评估的全面性与代表性，研究团队对部分大规模数据集进行了下采样处理，以平衡计算效率与数据多样性。具体而言，针对每个任务类别，选取了该领域内广泛认可且具有代表性的数据集，例如IMDb、Yelp2用于文档级情感分类，Irony18用于反讽检测，以及Rest16用于方面级情感分析任务。所有数据均经过预处理，移除了与下游评估任务可能重叠的文本，并采用格式统一化策略，为后续的模型蒸馏与评估提供了结构清晰、任务定义明确的标准化测试环境。

特点

SENTIBENCH作为一项综合性情感分析基准，其核心特点体现在多层次、细粒度的任务体系设计上。该基准超越了传统单一的情感极性分类，系统性地将评估维度拓展至多维度情感识别与结构化情感解析。其架构涵盖了从基础的文档与句子级情感分类，到更具挑战性的反讽检测、情绪识别、立场检测、亲密度分析，乃至方面词情感分析、方面类别情感分析、方面情感四元组预测和结构化情感分析等复杂任务。这种设计旨在深度检验模型对文本中主观信息的理解广度与深度，特别是对隐含情感、社会语境及结构化观点元素的捕捉能力。基准中的每个数据集均经过标准化处理，确保了任务定义、评估指标与数据格式的一致性，为不同规模与架构的语言模型提供了公平、可比的性能衡量平台。

使用方法

SENTIBENCH主要用于系统评估与比较不同模型在情感分析任务上的性能。研究人员通常采用上下文学习或微调两种范式来使用该基准。在上下文学习设置下，模型接收包含任务指令、少量示例（通常为4个）以及待分析文本的提示，并直接生成预测结果，无需针对特定数据集进行参数更新。评估时，需从数据集的训练集中随机抽取示例构建提示，并采用宏平均F1值等指标在多轮随机种子下计算平均性能以确保稳定性。对于微调范式，模型则利用基准中各数据集的训练集进行有监督的参数优化，随后在对应的测试集上进行评估。该基准的综合性使得它不仅能用于衡量模型的整体情感分析能力，还能通过分析模型在不同子任务上的表现差异，揭示其能力边界与特定弱点，从而为模型改进与领域适应性研究提供精准的洞察。

背景与挑战

背景概述

SentiBench作为情感分析领域的新型基准数据集，由哈尔滨工业大学（深圳）联合鹏城实验室等机构的研究团队于2025年提出，旨在系统评估大型语言模型在情感分析任务中的综合能力。该数据集围绕情感分析的核心研究问题——如何高效迁移大型模型的语义理解与任务对齐能力至轻量化模型而构建，涵盖了基础情感分类、多维度情感识别与细粒度情感解析三大类别共12个子数据集。其创新性在于首次将知识蒸馏的目标解耦为情感相关知识与任务对齐两个维度，并通过两阶段蒸馏框架实现能力迁移，为轻量化模型在情感计算领域的应用提供了重要的评估基准与方法论支撑。

当前挑战

SentiBench所应对的领域挑战主要集中于情感分析任务中模型能力迁移的效能瓶颈。传统通用蒸馏方法在教师模型与学生模型存在显著规模差距时，难以传递多样且规模充足的指令知识，导致学生模型仅模仿输出形式而缺乏下游任务的专业性能。在构建过程中，研究团队面临多重挑战：一是如何设计多视角提示策略以从大型语言模型中提取全面且高质量的情感相关知识；二是需解决任务对齐阶段中对未见任务的泛化难题，通过格式与任务多样化策略增强模型适应性；三是需平衡数据规模与计算效率，对部分数据集进行下采样处理的同时确保评估的全面性与代表性。

常用场景

经典使用场景

在情感计算与自然语言处理领域，SentiBench作为一个综合性基准测试集，其经典使用场景主要集中于系统评估与模型比较。该基准整合了基础情感分析、多维度情感分析与细粒度情感分析三大类别，覆盖了从文档级、句子级情感分类到讽刺检测、情感四元组预测等十二项任务。研究者通常利用SentiBench对大型语言模型或特定蒸馏模型的情感分析能力进行标准化、全方位的性能测评，从而客观衡量模型在理解文本主观信息、识别复杂情感表达以及结构化观点抽取等方面的综合效能。

衍生相关工作

围绕SentiBench及其背后的定向蒸馏方法论，衍生出一系列聚焦于高效情感分析的经典研究工作。这些工作主要沿两个方向展开：一是对蒸馏框架本身的改进，例如探索更高效的知识迁移策略、设计更鲁棒的任务对齐机制，以进一步提升小模型在复杂情感任务上的表现；二是利用SentiBench作为标准测试床，推动新型小规模语言模型或专用情感分析架构的研发。这些衍生研究不仅巩固了定向蒸馏在特定领域模型压缩中的方法论地位，也催生了更多面向实际应用的情感分析工具与模型，持续推动该领域向更高效、更专精的方向演进。

数据集最近研究