jordiclive/OATS-ABSA

Name: jordiclive/OATS-ABSA
Creator: jordiclive
Published: 2024-03-09 10:04:36
License: 暂无描述

Hugging Face2024-03-09 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/jordiclive/OATS-ABSA

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: comment dtype: string - name: quad sequence: sequence: string - name: dataset dtype: string splits: - name: train num_bytes: 2111953 num_examples: 3987 - name: test num_bytes: 266209 num_examples: 500 - name: validation num_bytes: 88525 num_examples: 170 download_size: 1136999 dataset_size: 2466687 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* - split: validation path: data/validation-* --- # OATS Dataset ## Description The OATS (Opinion Aspect Target Sentiment) dataset is a comprehensive collection designed for the Aspect Sentiment Quad Prediction (ASQP) or Aspect-Category-Opinion-Sentiment (ACOS) task. This dataset aims to facilitate research in aspect-based sentiment analysis by providing detailed opinion quadruples extracted from review texts. Additionally, for each review, we offer tuples summarizing the dominant sentiment polarity toward each aspect category discussed. The dataset covers three distinct domains: Amazon FineFood reviews, Coursera course reviews, and TripAdvisor Hotel reviews, offering a broad spectrum for analysis across different types of services and products. Structure The dataset is structured into two primary components: Opinion Quadruples: Detailed annotations on the level of individual opinions, including the aspect, the sentiment target, and the corresponding sentiment. Review-Level Tuples: Aggregate information at the review level, indicating the overall sentiment polarity for each aspect category mentioned. ## Domains Amazon FineFood Reviews Coursera Course Reviews TripAdvisor Hotel Reviews Each domain is annotated from scratch, ensuring high-quality data for nuanced sentiment analysis tasks. Citation If you use the OATS dataset in your research, please cite the original authors: ``` @misc{chebolu2023oats, title={OATS: Opinion Aspect Target Sentiment Quadruple Extraction Dataset for Aspect-Based Sentiment Analysis}, author={Siva Uday Sampreeth Chebolu and Franck Dernoncourt and Nedim Lipka and Thamar Solorio}, year={2023}, eprint={2309.13297}, archivePrefix={arXiv}, primaryClass={cs.CL} } ``` ## Usage This dataset has been curated to facilitate easy access and integration into existing NLP pipelines. To use this dataset, you can load it using the datasets library by Hugging Face: ``` from datasets import load_dataset dataset = load_dataset("jordiclive/OATS-ABSA") ```

数据集信息：特征字段： - 字段名：comment 数据类型：字符串 - 字段名：quad 数据类型：嵌套字符串序列 - 字段名：dataset 数据类型：字符串数据集划分： - 划分名称：训练集（train）字节占用：2111953 样本数量：3987 - 划分名称：测试集（test）字节占用：266209 样本数量：500 - 划分名称：验证集（validation）字节占用：88525 样本数量：170 下载总大小：1136999 数据集总占用大小：2466687 配置项： - 配置名称：default 数据文件： - 划分：train 路径：data/train-* - 划分：test 路径：data/test-* - 划分：validation 路径：data/validation-* # OATS数据集 ## 数据集描述 OATS（意见-属性-目标-情感，Opinion Aspect Target Sentiment）数据集是为属性情感四元组预测（ASQP，Aspect Sentiment Quad Prediction）或属性类别-意见-情感（ACOS，Aspect-Category-Opinion-Sentiment）任务设计的综合性数据集资源。本数据集通过提取评论文本中的精细意见四元组，助力基于属性的情感分析（aspect-based sentiment analysis）研究；此外，针对每条评论，我们还提供了汇总各讨论属性类别的主导情感极性的元组。该数据集涵盖三大独立领域：亚马逊精品食品评论、Coursera课程评论以及TripAdvisor酒店评论，可为不同品类的服务与产品分析提供丰富的研究维度。 ## 数据结构本数据集包含两个核心组成部分： - 意见四元组：针对单条意见的精细化标注，涵盖属性、情感目标以及对应的情感倾向。 - 评论级元组：评论层面的聚合信息，用于标注所提及的各属性类别的整体情感极性。 ## 覆盖领域 - 亚马逊精品食品评论 - Coursera课程评论 - TripAdvisor酒店评论所有领域的数据均采用从零开始的标注方式，可为细粒度情感分析任务提供高质量的数据集支撑。 ## 引用规范若您在研究中使用OATS数据集，请引用原作者的成果： bibtex @misc{chebolu2023oats, title={OATS: Opinion Aspect Target Sentiment Quadruple Extraction Dataset for Aspect-Based Sentiment Analysis}, author={Siva Uday Sampreeth Chebolu and Franck Dernoncourt and Nedim Lipka and Thamar Solorio}, year={2023}, eprint={2309.13297}, archivePrefix={arXiv}, primaryClass={cs.CL} } ## 使用方式本数据集经过精心整理，可轻松接入现有自然语言处理（NLP，Natural Language Processing）流水线。您可通过Hugging Face的`datasets`库加载该数据集： python from datasets import load_dataset dataset = load_dataset("jordiclive/OATS-ABSA")

提供机构：

jordiclive

原始信息汇总

OATS 数据集

描述

OATS（Opinion Aspect Target Sentiment）数据集是一个为Aspect Sentiment Quad Prediction（ASQP）或Aspect-Category-Opinion-Sentiment（ACOS）任务设计的综合集合。该数据集旨在通过提供从评论文本中提取的详细意见四元组，促进基于方面的情感分析研究。此外，对于每条评论，我们还提供了总结每个方面类别主导情感极性的元组。

该数据集涵盖三个不同领域：Amazon FineFood评论、Coursera课程评论和TripAdvisor酒店评论，为不同类型的服务和产品提供了广泛的分析范围。

结构

数据集主要分为两个部分：

意见四元组：对单个意见的详细标注，包括方面、情感目标和相应的情感。
评论级元组：在评论级别提供的聚合信息，指示提到的每个方面类别的总体情感极性。

领域

Amazon FineFood评论
Coursera课程评论
TripAdvisor酒店评论

每个领域都是从头开始标注的，确保高质量的数据用于细致的情感分析任务。

使用

该数据集经过精心策划，以便于轻松访问并集成到现有的NLP管道中。要使用此数据集，可以使用Hugging Face的datasets库加载：

python from datasets import load_dataset

dataset = load_dataset("jordiclive/OATS-ABSA")

搜集汇总

数据集介绍

构建方式

在情感分析领域，OATS数据集的构建体现了精细化的标注策略。该数据集围绕亚马逊食品评论、Coursera课程评价及TripAdvisor酒店评论三大领域，通过人工标注从原始评论文本中提取观点四元组，涵盖方面、类别、观点和情感四个维度。每个领域均独立进行从头标注，确保数据质量与领域特异性，同时为每篇评论提供基于方面类别的整体情感极性元组，形成多层次注释体系。

特点

OATS数据集的特点在于其多维度的结构化设计。它不仅提供细粒度的观点四元组，捕捉评论文本中具体的方面、目标、观点和情感，还整合了评论级别的元组，概括每个方面类别的主导情感极性。这种双重结构支持从微观到宏观的情感分析任务，覆盖餐饮、教育和旅游等多个服务领域，为跨域比较和模型泛化研究提供了丰富素材。

使用方法

利用OATS数据集进行情感分析研究时，可通过Hugging Face的datasets库直接加载，便捷集成至现有自然语言处理流程。数据集已划分为训练、验证和测试子集，研究者可基于此构建模型，用于方面情感四元预测或方面-类别-观点-情感任务，探索细粒度情感解析与跨领域适应性。

背景与挑战

背景概述

在情感分析领域，细粒度情感解析已成为自然语言处理的前沿方向，旨在深入挖掘文本中针对特定方面的情感倾向。OATS数据集由Siva Uday Sampreeth Chebolu等人于2023年构建，专注于方面情感四元组预测任务，为研究者提供了涵盖亚马逊食品评论、Coursera课程评价及TripAdvisor酒店评论的多领域标注数据。该数据集通过精确标注方面、类别、观点和情感极性，推动了方面级情感分析模型向更精细化、结构化方向发展，显著提升了情感理解在跨领域应用中的泛化能力。

当前挑战

方面级情感分析的核心挑战在于准确识别文本中隐含的方面实体及其对应情感，尤其在多领域语境下，同一词汇可能承载不同情感语义。OATS数据集的构建过程中，研究者需克服跨领域标注一致性难题，确保亚马逊、教育及旅游评论的注释标准统一。此外，方面情感四元组的抽取要求模型同步处理实体、观点与情感间的复杂关联，这对标注质量与算法设计提出了双重考验。

常用场景

经典使用场景

在情感计算与自然语言处理领域，OATS数据集为细粒度情感分析提供了关键支持。该数据集通过标注评论中的意见四元组，即方面、类别、意见和情感，使得研究者能够深入探索文本中针对特定方面的情感表达。其经典使用场景在于训练和评估模型进行方面情感四元预测任务，帮助模型从多领域评论中精确识别结构化情感信息，从而推动情感分析向更精细、更可解释的方向发展。

实际应用

在实际应用中，OATS数据集支撑了多领域情感洞察系统的开发。例如，在电子商务平台，基于该数据训练的模型可自动分析用户对食品、课程或酒店服务的细粒度评价，帮助企业精准识别产品优劣势；在在线教育或旅游服务领域，系统能依据方面级情感反馈优化推荐策略或改进服务质量。这种应用不仅提升了用户体验管理的效率，也为行业决策提供了数据驱动的见解。

衍生相关工作

围绕OATS数据集，已衍生出一系列经典研究工作。这些工作主要集中于开发端到端的方面情感四元抽取模型，如基于序列生成或图神经网络的联合学习方法，以高效处理四元组之间的依赖关系。同时，部分研究利用该数据集的跨领域特性，探索领域自适应技术在情感分析中的迁移效果。这些工作不仅验证了数据集的实用价值，也进一步丰富了细粒度情感分析的方法体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集