five

SENTIBENCH|情感分析数据集|自然语言处理数据集

收藏
arXiv2025-03-05 更新2025-03-07 收录
情感分析
自然语言处理
下载链接:
http://arxiv.org/abs/2503.03225v1
下载链接
链接失效反馈
资源简介:
SENTIBENCH是一个综合性的情感分析基准,由哈尔滨工业大学(深圳)的研究团队开发。该数据集包含3个典型类别:基本情感分析、多方面情感分析和细粒度情感分析,覆盖了12个代表性任务及其对应的数据集。它旨在系统地评估LLM在情感分析方面的能力,涵盖从文档到句子级别的情感分类,以及更复杂的情感状态识别和细粒度情感元素分析等任务。
提供机构:
哈尔滨工业大学(深圳)
创建时间:
2025-03-05
AI搜集汇总
数据集介绍
main_image_url
构建方式
SENTIBENCH数据集的构建方式是通过从高级大型语言模型(LLMs)中进行有针对性的蒸馏,以实现紧凑的模型,同时保持强大的情感分析能力。该方法将蒸馏目标分解为两个关键组件:情感相关知识和技术对齐。为了转移这些组件,论文提出了一个两阶段的蒸馏框架。第一阶段是知识驱动蒸馏(KNOWDIST),用于将情感相关知识转移到学生模型中,以增强基本的情感分析能力。第二阶段是上下文学习蒸馏(ICLDIST),用于将特定任务的提示跟随能力转移到学生模型中,以优化技术对齐。在评估阶段,作者引入了SENTIBENCH,这是一个全面的情感分析基准,包含12个数据集的3个任务类别。实验结果表明,该模型有效地平衡了模型大小和性能,与现有的小型LLMs相比具有强大的竞争力。
特点
SENTIBENCH数据集的特点在于它是一个全面的情感分析基准,包含12个数据集的3个任务类别。这些任务类别包括基本情感分析、多面情感分析和细粒度情感分析。该数据集的构建旨在评估LLMs的情感分析能力,并促进情感分析领域的研究。此外,该数据集的构建还采用了两阶段的蒸馏框架,即知识驱动蒸馏(KNOWDIST)和上下文学习蒸馏(ICLDIST),以有效地将高级LLMs的情感分析能力转移到小型模型中。这些特点使得SENTIBENCH数据集成为一个有价值的工具,可以促进情感分析领域的研究。
使用方法
使用SENTIBENCH数据集的方法是通过两阶段的蒸馏框架来训练学生模型。首先,使用知识驱动蒸馏(KNOWDIST)将情感相关知识从教师LLM转移到学生模型中,以提高其基本的情感分析能力。其次,使用上下文学习蒸馏(ICLDIST)将特定任务的提示跟随能力转移到学生模型中,以优化其技术对齐。在蒸馏过程中,需要收集大量多样化的用户文本,并构建各种分析和重写提示。然后,将这些提示应用于教师LLM,以解释现有文本中的情感,并积极探索和生成多样的情感表达模式。最后,利用这些数据集来优化学生模型,以提高其在情感分析任务中的性能。通过这种方式,可以有效地利用SENTIBENCH数据集来训练和评估情感分析模型。
背景与挑战
背景概述
SENTIBENCH数据集是为了评估大型语言模型(LLMs)在情感分析任务上的能力而开发的,它由哈尔滨工业大学深圳分校、鹏城实验室和广东省新型安全智能技术重点实验室的研究人员共同创建。该数据集旨在解决情感分析领域中的挑战,特别是如何有效地从大型语言模型中提取情感分析能力,并将其转移到小型模型中,从而降低计算成本。SENTIBENCH数据集包含了12个数据集,跨越了基本的情感分析、多方面的情感分析和细粒度的情感分析三个任务类别,为情感分析任务提供了一个全面的基准。
当前挑战
SENTIBENCH数据集的创建面临了几个挑战。首先,如何有效地从大型语言模型中提取情感分析能力是一个难题。其次,如何将提取的知识有效地转移到小型模型中也是一个挑战。此外,如何确保小型模型在未见过的任务上也能表现出色也是一个挑战。为了解决这些挑战,研究人员提出了一个两阶段的蒸馏框架,包括知识驱动蒸馏(KNOWDIST)和上下文学习蒸馏(ICLDIST)。KNOWDIST旨在转移基本的情感分析能力,而ICLDIST则专注于转移任务特定的提示跟随能力,以优化任务对齐。通过这些方法,研究人员能够有效地从大型语言模型中提取情感分析能力,并将其转移到小型模型中,从而提高情感分析任务的性能。
常用场景
经典使用场景
SENTIBENCH数据集广泛应用于情感分析领域,尤其是通过目标蒸馏技术从大型语言模型(LLMs)中提取情感分析能力。该数据集包含了12个数据集,涵盖了基本的情感分析、多方面的情感分析和细粒度的情感分析三个任务类别。研究者可以利用SENTIBENCH数据集评估和比较不同情感分析模型的性能,从而推动情感分析技术的发展和应用。
解决学术问题
SENTIBENCH数据集解决了情感分析领域的一个关键问题:如何有效地从大型语言模型中提取情感分析能力。通过目标蒸馏技术,研究者可以将LLMs中的情感相关知识和任务对齐能力转移到更小、更高效的模型中,从而降低计算成本并提高情感分析任务的性能。SENTIBENCH数据集的引入为情感分析领域的学术研究提供了重要的基准和工具。
衍生相关工作
SENTIBENCH数据集衍生了许多相关的经典工作。例如,研究者可以利用SENTIBENCH数据集评估和比较不同目标蒸馏方法的性能,从而推动目标蒸馏技术的发展。此外,SENTIBENCH数据集还可以用于开发新的情感分析模型,并将其应用于实际场景中,例如社交媒体情感分析、产品评论分析、客户服务等等。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录