Czech Dataset for Complex Aspect-Based Sentiment Analysis Tasks

Name: Czech Dataset for Complex Aspect-Based Sentiment Analysis Tasks
Creator: 西波西米亚大学应用科学学院计算机科学与工程系
Published: 2025-08-12 00:03:28
License: 暂无描述

arXiv2025-08-12 更新2025-08-13 收录

下载链接：

https://github.com/biba10/Czech-Dataset-for-Complex-ABSA-Tasks

下载链接

链接失效反馈

官方服务：

资源简介：

本文介绍了一个针对复杂方面情感分析任务的捷克数据集，该数据集包含3.1K条手动标注的餐厅领域评论。数据集基于较早的捷克数据集构建，后者仅包含基本ABSA任务（如方面术语提取或方面极性检测）的单独标签。与前辈不同，我们的新数据集专门为更复杂的任务设计，例如目标-方面-类别检测。这些高级任务需要统一的标注格式，无缝地将情感元素（标签）连接在一起。我们的数据集遵循著名的SemEval-2016数据集的格式。这种设计选择允许轻松应用于跨语言场景，并最终促进与其他语言中等效数据集的跨语言比较。标注过程涉及两名经过培训的标注员，产生了令人印象深刻的标注员间协议率，约为90%。此外，我们提供了24M条未标注的评论，适合无监督学习。我们展示了使用各种基于Transformer的模型获得的稳健的单语基线结果，以及有洞察力的错误分析，以补充我们的贡献。我们的代码和数据集可供非商业研究免费使用。

This paper introduces a Czech dataset for complex aspect-based sentiment analysis tasks, which contains 3.1K manually annotated restaurant domain reviews. The dataset is built upon an earlier Czech dataset that only included separate labels for basic ABSA tasks such as aspect term extraction or aspect polarity detection. Unlike its predecessor, our new dataset is specifically designed for more complex tasks such as target-aspect-category detection. These advanced tasks require a unified annotation format that seamlessly connects sentiment elements (labels) together. Our dataset follows the format of the well-known SemEval-2016 dataset. This design choice enables easy application in cross-lingual scenarios, and ultimately facilitates cross-lingual comparisons with equivalent datasets in other languages. The annotation process involved two trained annotators, yielding an impressive inter-annotator agreement rate of approximately 90%. Additionally, we provide 24M unannotated reviews suitable for unsupervised learning. We present robust monolingual baseline results obtained using various Transformer-based models, as well as insightful error analysis to complement our contributions. Our code and dataset are freely available for non-commercial research use.

提供机构：

西波西米亚大学应用科学学院计算机科学与工程系

创建时间：

2025-08-12

原始信息汇总

捷克语复杂方面情感分析任务数据集概述

数据集基本信息

名称: Czech Dataset for Complex Aspect-Based Sentiment Analysis Tasks
领域: 餐厅评论
语言: 捷克语
数据规模:
- 标注数据: 3.1K条手动标注评论
- 无标注数据: 24M条评论
发布会议: LREC-COLING 2024
论文地址: https://aclanthology.org/2024.lrec-main.384/

数据集结构

数据文件夹: data
- cs_rest_o: CsRest-O数据集
- cs_rest_n: CsRest-N数据集
- cs_rest_m: CsRest-M数据集
文件类型:
- train.xlm: 训练数据
- dev.xlm: 验证数据
- test.xlm: 测试数据

数据集特点

标注质量: 两位训练有素的标注员，标注一致率约90%
任务支持:
- 基础ABSA任务: 方面词提取、方面极性检测等
- 复杂任务: 目标-方面-类别检测等
格式兼容性: 遵循SemEval-2016数据集格式，便于跨语言比较

使用方式

运行命令: python main.py
主要参数:
- --model: 预训练模型名称或路径
- --batch_size: 批大小
- --max_seq_length: 最大序列长度
- --dataset_path: 数据集路径
- --task: ABSA任务类型

引用格式

bibtex @inproceedings{smid-etal-2024-czech, title = "{C}zech Dataset for Complex Aspect-Based Sentiment Analysis Tasks", author = "{v{S}}m{i}d, Jakub and P{v{r}}ib{a}{v{n}}, Pavel and Prazak, Ondrej and Kral, Pavel", booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)", year = "2024", pages = "4299--4310", url = "https://aclanthology.org/2024.lrec-main.384/" }

搜集汇总

数据集介绍

构建方式

该数据集基于捷克餐厅评论构建，包含3,189条人工标注的评论和2,400万条无标注评论。标注过程由两名训练有素的标注员完成，遵循SemEval-2016的统一标注格式，确保标注元素（如方面词、方面类别和情感极性）之间的关联性。标注员间一致性达到约90%，确保了数据的高质量。数据集扩展了原有捷克数据集，新增了1,040条评论，并重新标注了原有数据，以支持更复杂的ABSA任务。

特点

该数据集的主要特点在于其支持复杂的ABSA任务，如目标-方面-类别检测（TASD）和方面-类别-词项提取（ACTE）。数据集采用与SemEval-2016相同的标注格式，便于跨语言比较。此外，数据集中包含了详细的方面类别（如FOOD#QUALITY和DRINKS#PRICES）和情感极性标注，覆盖了餐厅评论中的多个维度。数据集的规模在餐厅领域内位居前列，尤其在标注三元组数量上表现突出。

使用方法

该数据集适用于多种ABSA任务，包括方面词提取（ATE）、方面类别检测（ACD）和情感极性检测（APD）等。研究人员可以使用基于Transformer的编码器模型或序列到序列模型进行任务处理。数据集提供了训练、验证和测试集的分割，便于模型开发和评估。此外，无标注部分可用于无监督学习或领域自适应预训练。数据集的使用方法还包括跨语言实验，通过与SemEval-2016中的其他语言数据集比较，推动多语言ABSA研究。

背景与挑战

背景概述

捷克复杂方面情感分析任务数据集（Czech Dataset for Complex Aspect-Based Sentiment Analysis Tasks）由捷克西波西米亚大学应用科学学院的研究团队于2025年发布，旨在填补捷克语在细粒度情感分析领域的资源空白。该数据集基于2016年发布的捷克语数据集扩展而来，包含3,189条餐厅评论的手工标注数据，并额外提供2400万条无标注评论用于无监督学习。其核心创新在于采用与SemEval-2016一致的标注格式，首次实现了目标-方面-情感三元组的联合标注，支持目标-方面-类别检测（TASD）等复杂任务。该数据集推动了斯拉夫语系语言在方面情感分析领域的研究，为跨语言比较提供了重要基准。

当前挑战

该数据集主要解决捷克语在复杂方面情感分析任务中的资源匮乏问题，其构建面临多重挑战：1）标注复杂性方面，需统一标注目标实体、方面类别和情感极性三个要素的关联关系，标注者间一致性达到89.7%；2）语言特性方面，捷克语丰富的屈折变化和自由语序增加了方面术语识别的难度；3）数据不平衡问题，中性情感样本仅占9.5%，且部分方面类别（如DRINKS#STYLE_OPTIONS）样本稀少；4）跨任务兼容性挑战，需保持与基础任务（如方面术语提取）的标注兼容性，同时支持端到端联合预测任务。

常用场景

经典使用场景

Czech Dataset for Complex Aspect-Based Sentiment Analysis Tasks 是一个专门用于捷克语餐厅评论的细粒度情感分析数据集。该数据集包含3,189条手动标注的评论，涵盖了餐厅领域的多个方面，如食物质量、服务、环境等。其最经典的使用场景是在自然语言处理领域，特别是针对捷克语的多任务情感分析研究。研究者可以利用该数据集进行目标-方面-类别检测（TASD）、方面极性检测（APD）等复杂任务，从而深入理解捷克语文本中的情感表达。

衍生相关工作

该数据集衍生了一系列相关研究，特别是在基于Transformer的模型和多任务学习方面。例如，Šmíd和Přibáň（2023）首次提出了基于提示的捷克语情感分析方法，并在该数据集上进行了验证。此外，Přibáň和Pražák（2023）结合了语义角色标注任务，进一步提升了方面类别检测的性能。这些研究不仅推动了捷克语情感分析的发展，也为其他语言的类似任务提供了参考。

数据集最近研究