ytu-ara-proje-absa

Hugging Face2024-12-21 更新2024-12-22 收录

下载链接：

https://huggingface.co/datasets/ebrukilic/ytu-ara-proje-absa

下载链接

链接失效反馈

官方服务：

资源简介：

ABSA（基于方面的情感分析）数据集包含5045个实例，使用土耳其语。该数据集用于基于方面的情感分析（ABSA）任务，涵盖了裙子、夹克、衬衫、毛衣、裤子等类别。情感极性分为负面、中性、正面，涉及的方面包括质量、面料、颜色、尺寸、运输、价格等。数据集的许可证为MIT，由Yıldız Teknik Üniversitesi Bilgisayar Mühendisliği的学生开发。数据来源于Trendyol和HepsiBurada网站上的服装产品评论，数据集为CSV格式，评论经过预处理和归一化。每个评论都根据特定的方面（如质量、尺寸、面料等）进行分类，并带有情感极性标签（正面、负面、中性）。

创建时间：

2024-12-14

原始信息汇总

ABSA (Aspect-Based Sentiment Analysis) 数据集

数据集详情

数据集名称: ABSA (Aspect-Based Sentiment Analysis)
数据集大小: 5045 条数据
语言: 土耳其语
任务: 基于方面的情感分析 (ABSA)
类别: Etek, Kaban, Gömlek, Kazak, Pantolon
极性: Negatif, Nötr, Pozitif
方面: Kalite, Kumaş, Renk, Beden, Kargo, Fiyat
许可证: MIT
开发者: ebru kılıç, rumeysa nur yasav

数据集来源

该数据集由伊斯坦布尔技术大学计算机工程专业的学生在计算机项目范围内开发的项目中创建。数据包括Trendyol和HepsiBurada网站上的服装产品评论。数据集为CSV格式，包含土耳其语的产品评论，用于基于方面的情感分析 (ABSA) 任务。评论根据特定的方面（例如，质量、尺寸、面料等）进行分类，并且每个评论都带有情感极性标签（正面、负面、中性）。

数据集字段

id: 每个评论所属产品的标识
star: 评论的星级评分（0,1,2: 负面 (1 和 2 评分), 正面 (4 和 5 评分), 中性 (3 评分)）
sub_kategori: 产品类别（例如，衬衫、裤子等）
normalized_yorum: 评论文本（预处理和归一化）
aspects: 评论涉及的特征或主题（例如，质量、尺寸、面料等）
polarity: 评论的情感极性：Negatif, Pozitif, Nötr

数据收集和处理

数据集中的评论通过zemberek库进行了归一化处理。

标注

标注工作由数据集创建者完成。

偏差、风险和限制

偏差: 数据集中的标签可能特定于所使用的平台上的评论所代表的用户群体，因此模型在不同用户群体中的泛化能力可能有限。
限制: 数据集仅代表特定类型的产品，不包含多种产品类别。

搜集汇总

数据集介绍

构建方式

该数据集由Yıldız Teknik Üniversitesi的计算机工程学生在其项目中构建，专门用于Aspect-Based Sentiment Analysis (ABSA)任务。数据来源于Trendyol和HepsiBurada网站上的服装产品评论，经过预处理和规范化，使用Zemberek库进行文本标准化。每个评论根据其涉及的方面（如质量、面料、颜色等）和情感极性（正面、负面、中性）进行标注，形成了一个包含5045条实例的结构化数据集。

使用方法

该数据集适用于Aspect-Based Sentiment Analysis任务，可用于训练和评估情感分析模型。用户可以通过加载CSV格式的数据集，利用其中的评论文本、情感极性和具体方面信息进行模型训练。数据集的结构化字段设计使得数据处理和模型输入准备相对简单，适合用于自然语言处理领域的研究与应用。

背景与挑战

背景概述

ytu-ara-proje-absa数据集由Yıldız Teknik Üniversitesi的计算机工程学生团队开发，专注于土耳其语环境下的基于方面的情感分析（Aspect-Based Sentiment Analysis, ABSA）。该数据集创建于学生项目框架内，旨在通过分析Trendyol和HepsiBurada等电商平台上服装类产品的用户评论，提取特定方面的情感极性（如质量、面料、颜色等）。数据集包含5045条实例，涵盖了多种服装类别和情感标签（正向、中性、负向），为土耳其语NLP领域提供了宝贵的资源。

当前挑战

该数据集面临的挑战主要集中在数据收集和标注的局限性上。首先，数据来源于特定电商平台，可能无法全面代表所有用户群体的意见，导致模型在不同用户群体中的泛化能力受限。其次，数据集仅涵盖了有限的服装类别，未能覆盖更广泛的商品类型，限制了其在多样化产品分析中的应用。此外，尽管数据经过了Zemberek库的预处理，但语言的复杂性和多义性仍可能影响情感分析的准确性。

常用场景

经典使用场景

ytu-ara-proje-absa数据集在自然语言处理领域中，主要用于基于方面的情感分析（Aspect-Based Sentiment Analysis, ABSA）任务。该数据集通过分析土耳其语的电商评论，帮助识别和分类用户对特定产品方面的情感倾向，如质量、价格、颜色等。这种分析有助于企业深入理解消费者对产品各方面的反馈，从而优化产品和服务。

解决学术问题

该数据集解决了在多语言环境下进行细粒度情感分析的学术挑战。通过提供土耳其语的电商评论数据，它为研究者提供了一个独特的资源，用于开发和验证跨语言情感分析模型。此外，该数据集还为研究情感分析中的偏差和局限性提供了基础，有助于推动该领域的理论和方法的发展。

实际应用

在实际应用中，ytu-ara-proje-absa数据集被广泛用于电商平台的客户反馈分析。通过自动化分析用户评论，企业可以快速识别产品或服务的优缺点，从而进行针对性的改进。此外，该数据集还可用于开发智能客服系统，帮助企业更有效地处理客户投诉和建议，提升客户满意度。

数据集最近研究