matthewfranglen/aste-v2

Name: matthewfranglen/aste-v2
Creator: matthewfranglen
Published: 2023-10-09 10:05:10
License: 暂无描述

Hugging Face2023-10-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/matthewfranglen/aste-v2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Aspect Sentiment Triplet Extraction v2，主要用于提取目标实体、其相关情感和解释情感原因的意见跨度的三元组。数据集关注于基于方面的情感分析（ABSA），旨在识别目标实体的方面及对每个方面表达的情感极性。数据来源于SemEval 2014、2015和2016数据集，并进行了预处理，包括拼写纠正和文本分词。数据集包含训练、验证和测试集，每行数据包括索引、文本、方面和意见的起始和结束索引、方面和意见术语以及情感类别。

This dataset is named Aspect Sentiment Triplet Extraction v2. It is primarily designed for extracting triplets consisting of target entities, their associated sentiments, and opinion spans that explain the causal reasons behind the sentiments. Focused on Aspect-Based Sentiment Analysis (ABSA), this dataset aims to identify the aspects of target entities and the sentiment polarities expressed towards each respective aspect. The dataset is sourced from the SemEval 2014, 2015, and 2016 datasets, and has been preprocessed with steps including spell correction and text tokenization. It includes training, validation, and test sets, where each row of data contains the index, text, start and end indices of aspects and opinions, aspect and opinion terms, as well as sentiment categories.

提供机构：

matthewfranglen

原始信息汇总

数据集概述

数据集名称

Aspect Sentiment Triplet Extraction v2

语言

英语

数据集规模

1K<n<10K

任务类别

词分类
文本分类

配置详情

2014-laptop-sem-eval

训练集: data/2014/laptop/sem-eval/train.gz.parquet
验证集: data/2014/laptop/sem-eval/valid.gz.parquet
测试集: data/2014/laptop/sem-eval/test.gz.parquet

2014-laptop-aste-v2

训练集: data/2014/laptop/aste/train.gz.parquet
验证集: data/2014/laptop/aste/valid.gz.parquet
测试集: data/2014/laptop/aste/test.gz.parquet

2014-restaurant-sem-eval

训练集: data/2014/restaurant/sem-eval/train.gz.parquet
验证集: data/2014/restaurant/sem-eval/valid.gz.parquet
测试集: data/2014/restaurant/sem-eval/test.gz.parquet

2014-restaurant-aste-v2

训练集: data/2014/restaurant/aste/train.gz.parquet
验证集: data/2014/restaurant/aste/valid.gz.parquet
测试集: data/2014/restaurant/aste/test.gz.parquet

2015-restaurant-sem-eval

训练集: data/2015/restaurant/sem-eval/train.gz.parquet
验证集: data/2015/restaurant/sem-eval/valid.gz.parquet
测试集: data/2015/restaurant/sem-eval/test.gz.parquet

2015-restaurant-aste-v2

训练集: data/2015/restaurant/aste/train.gz.parquet
验证集: data/2015/restaurant/aste/valid.gz.parquet
测试集: data/2015/restaurant/aste/test.gz.parquet

2016-restaurant-sem-eval

训练集: data/2016/restaurant/sem-eval/train.gz.parquet
验证集: data/2016/restaurant/sem-eval/valid.gz.parquet
测试集: data/2016/restaurant/sem-eval/test.gz.parquet

2016-restaurant-aste-v2

训练集: data/2016/restaurant/aste/train.gz.parquet
验证集: data/2016/restaurant/aste/valid.gz.parquet
测试集: data/2016/restaurant/aste/test.gz.parquet

数据集描述

任务概述

Aspect Sentiment Triplet Extraction (ASTE) 任务旨在从文本中提取目标实体、相关情感及解释情感的意见词三元组。例如，给定句子：

The screen is very large and crystal clear with amazing colors and resolution.

目标是从中提取出以下三元组：

[(screen, large, Positive), (screen, clear, Positive), (colors, amazing, Positive), (resolution, amazing, Positive)]

数据集来源

该数据集基于 SemEval 2014、2015 和 2016 数据集，并进行了一些预处理。

数据集详情

数据集包含以下列：

index: 文档索引，用于将同一文档的多个注释分组。
text: 被注释的文档文本。
aspect_start_index: 方面词的起始字符索引。
aspect_end_index: 方面词的结束字符索引。
aspect_term: 方面词。
opinion_start_index: 意见词的起始字符索引。
opinion_end_index: 意见词的结束字符索引。
opinion_term: 意见词。
sentiment: 情感类别，包括 negative、neutral 或 positive。

预处理

预处理包括拼写纠正和文本分词，例如：

Keyboard good sized and wasy to use.

(easy 被误写为 wasy)。

预处理后的文本会添加额外的空格，例如：

It s just as fast with one program open as it is with sixteen open.

数据集提供了两种形式：

aste-v2 结尾的子集包含预处理后的文本。
sem-eval 结尾的子集包含原始 SemEval 文本。

引用信息

@misc{xu2021learning, title={Learning Span-Level Interactions for Aspect Sentiment Triplet Extraction}, author={Lu Xu and Yew Ken Chia and Lidong Bing}, year={2021}, eprint={2107.12214}, archivePrefix={arXiv}, primaryClass={cs.CL} } @misc{xu2021positionaware, title={Position-Aware Tagging for Aspect Sentiment Triplet Extraction}, author={Lu Xu and Hao Li and Wei Lu and Lidong Bing}, year={2021}, eprint={2010.02609}, archivePrefix={arXiv}, primaryClass={cs.CL} } @misc{peng2019knowing, title={Knowing What, How and Why: A Near Complete Solution for Aspect-based Sentiment Analysis}, author={Haiyun Peng and Lu Xu and Lidong Bing and Fei Huang and Wei Lu and Luo Si}, year={2019}, eprint={1911.01616}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

Aspect Sentiment Triplet Extraction v2（ASTE-v2）数据集的构建基于对SemEval 2014、2015和2016数据集的预处理。该数据集通过人工标注的方式，从客户评价中提取出目标实体、其相关情感以及解释情感的评论跨度构成的三元组。构建过程中，数据集经过了文本的拼写错误校正和分词处理，形成了带有额外空格的预处理文本，以及保持原始SemEval文本格式的版本，以适应不同的研究需求。

特点

该数据集的特点在于其专注于方面情感分析，即不仅识别出文本中的目标实体，还识别出针对每个实体的不同方面的情感态度。数据集涵盖了笔记本电脑和餐厅两个领域的评论，并提供了单一注释的简化格式，方便研究者对文档中的所有注释进行整合。此外，数据集提供了两种形式：一种经过预处理，另一种保持原始状态，为研究者提供了灵活性。

使用方法

使用该数据集时，研究者可以根据具体任务选择适当的配置。数据集分为训练集、验证集和测试集，每个数据集都包含索引、文本、方面术语的起始和结束索引、方面术语、观点术语的起始和结束索引、观点术语以及情感类别等字段。研究者可以依据这些字段，利用机器学习模型进行方面情感三元组的提取，进而对模型进行训练、验证和测试。

背景与挑战

背景概述

Aspect Sentiment Triplet Extraction v2（ASTE-v2）数据集是在学术界和商业界日益重视情感分析任务的背景下应运而生。该数据集由Lu Xu等人于2020年首次提出，其研究背景源于对现有情感分析方法的不完善性，即大多数方法仅关注于句子、段落或文本片段的整体极性，而忽略了提及的实体及其方面（如电池、屏幕；食物、服务）。ASTE-v2数据集的创建旨在推动基于方面的情感分析（ABSA）的研究，即识别给定目标实体的方面以及针对每个方面的情感表达。该数据集基于SemEval 2014、2015和2016数据集，并对其进行了预处理，包含了客户评价以及人工标注的实体方面和情感极性信息。

当前挑战

在构建ASTE-v2数据集的过程中，研究人员面临了多项挑战。首先，需要精确地从评论文本中提取出方面、观点和情感三元组，这要求高度准确的文本处理和实体识别技术。其次，数据预处理过程中，对文本的拼写校正和分词处理需要保持文本的自然性，避免引入不必要的空白字符。此外，由于原始的SemEval数据集存在多个注释，研究人员还需设计一种机制，以便将同一文档的所有注释关联起来。这些挑战不仅要求对自然语言处理技术有深入的理解，还要求对数据集的构建和预处理流程有精细的控制。

常用场景

经典使用场景

在自然语言处理领域，Aspect Sentiment Triplet Extraction v2数据集被广泛应用于提取文本中的观点三元组，即目标实体、其对应的情感以及解释情感的理由。经典的使用场景包括从消费者评论中提取具体的产品特性（如屏幕大小、食物口味等）及其情感倾向（积极、消极或中立），进而为产品分析、市场研究和客户情感洞察提供精细化的数据支持。

解决学术问题

该数据集解决了传统情感分析中仅关注整体情感倾向而忽略具体情感对象的问题。通过细致标注的方面、观点和情感，研究学者可以更深入地理解消费者对产品或服务的具体看法，这对于提升情感分析的准确性和实用性具有重要意义。此外，它为方面级情感分析的研究提供了标准化数据，有助于推动该领域的发展。

衍生相关工作

基于该数据集，研究者已经衍生出一系列相关工作，包括但不限于提出新的模型架构来提高方面情感三元组提取的准确率，以及探索跨领域的情感分析技术。这些研究不仅推动了情感分析领域的技术进步，也为实际应用中的情感识别与推理提供了更多可能性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集