NEUDM/towe

Name: NEUDM/towe
Creator: NEUDM
Published: 2023-05-23 17:20:24
License: 暂无描述

Hugging Face2023-05-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/NEUDM/towe

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集属于ABSA（基于方面的情感分析）领域，主要任务是从句子中抽取方面术语、方面类别、情感极性和观点词。数据集被改造为生成任务，模型需要按照特定格式生成抽取结果。原始数据集包括laptop14、restuarant14、restuarant15和restuarant16四个文件夹，数据不同但抽取的元素相同。当前SOTA模型为IOG，其在不同数据集上的F1-Score表现分别为：laptop14（71.35）、restuarant14（80.02）、restuarant15（73.25）、restuarant16（81.69）。

提供机构：

NEUDM

原始信息汇总

数据集概述

数据集类型

数据集属于ABSA(Aspect-Based Sentiment Analysis)领域。

数据集内容

数据集主要用于从句子中抽取方面术语、方面类别(术语类别)、术语在上下文中的情感极性以及针对该术语的观点词。
每个数据集的jsonl文件中通过“instruction”键指定了不同的抽取任务。

数据集示例

以acos数据集为例，一条数据包含以下字段：
- task_type: "generation"
- dataset: "acos"
- input: 输入句子
- output: 抽取结果，格式为四元组列表
- instruction: 任务说明和示例

数据集任务说明

任务：抽取方面术语及其对应的方面类别、情感极性和观点词。
输入：一个句子。
输出：一个四元组列表，每个四元组包含抽取的方面术语、方面类别、情感极性和观点词（如果有）。
示例：
- 句子："Also its not a true SSD drive in there but eMMC, which makes a difference."
- 输出：[[SSD drive, hard_disc operation_performance, negative, NULL]]

原始数据集组成

原始数据集由laptop14、restuarant14、restuarant15和restuarant16四个文件夹组成，每个文件夹的数据不同，但抽取的元素相同。

搜集汇总

数据集介绍

构建方式

在细粒度情感分析领域，TOWE数据集聚焦于目标导向观点词抽取任务，其构建过程体现了严谨的学术规范。该数据集源自公开的SemEval评测任务，原始数据包含laptop14、restuarant14、restuarant15和restuarant16四个子集，均围绕电子产品与餐饮服务领域的用户评论进行标注。标注者依据明确的准则，从句子中识别预定义的目标实体，并精准抽取出表达对该实体情感倾向的具体观点词汇，从而构建了结构化的（目标，观点词）配对数据。

特点

TOWE数据集的核心特点在于其定义了情感分析中一个新颖且具挑战性的子任务——目标导向观点词抽取，这区别于传统的方面级情感分类。数据覆盖笔记本电脑与餐厅两大实用领域，提供了丰富的真实语境。其标注格式统一，每个样本均清晰标明了文本中的目标实体及其对应的观点表达，为模型学习目标与观点词之间的语义关联提供了高质量监督信号。数据集的划分遵循原始设定，便于进行公平的跨领域性能评估与比较。

使用方法

该数据集主要用于训练和评估面向目标观点词抽取的序列标注或文本生成模型。研究者可加载预处理后的数据，其中输入为包含特定目标的句子，输出则为对应的观点词序列。在实践层面，既可采用经典的IOG等序列标注架构进行端到端学习，也可如本仓库所示，将其转化为遵循特定指令模板的文本生成任务，利用大语言模型的能力进行抽取。评估时，通常采用精确匹配下的F1分数作为核心指标，以衡量模型抽取观点词的准确性。

背景与挑战

背景概述

在细粒度情感分析领域，基于方面的情感分析（ABSA）旨在深入解析文本中针对特定方面的情感表达。NEUDM/towe数据集由南京大学自然语言处理研究组于2019年创建，其核心研究问题是目标导向观点词抽取（TOWE），即从给定句子中精准识别与预定义方面术语相关联的观点词。该数据集的构建标志着ABSA任务从传统的情感极性分类向更细致的观点成分抽取演进，为理解用户评论的微观情感结构提供了重要资源，推动了情感分析模型向更高解释性与精准度发展。

当前挑战

TOWE数据集所应对的领域挑战在于，传统ABSA任务多聚焦于方面术语识别与情感分类，而忽略观点词的具体抽取，导致模型难以提供可解释的情感依据。在构建过程中，数据标注面临双重困难：一方面，观点词与方面术语间的语义关联复杂，常存在隐含或间接表达，需要标注者具备深厚的语言学洞察力；另一方面，数据来源于多个公开评论数据集（如SemEval系列），需统一标注规范并处理领域差异，确保标注一致性与质量，这为数据集的可靠性与泛化能力带来了显著挑战。

常用场景

经典使用场景

在细粒度情感分析领域，TOWE数据集为研究者提供了精准的方面词与观点词配对标注，其经典应用场景在于训练和评估模型从给定句子中提取与特定方面词相关联的观点词。例如，在评论文本“电脑在平板和电脑模式间切换困难”中，模型需识别“电脑”作为方面词，并提取“困难”作为对应的观点词，这有助于深入理解用户对产品具体属性的情感倾向，为后续情感分类奠定基础。

衍生相关工作

围绕TOWE数据集，衍生了一系列经典研究工作，其中IOG模型作为开创性成果，通过目标融合的序列标注框架，显著提升了观点词提取的F1分数。后续研究在此基础上探索了多任务学习、预训练语言模型适配以及跨领域迁移等方法，进一步推动了ABSA子任务的技术演进。这些工作不仅深化了对方面词与观点词交互机制的理解，也为更复杂的细粒度情感分析任务提供了可借鉴的范式。

数据集最近研究