GERestaurant
收藏arXiv2024-08-15 更新2024-08-17 收录
下载链接:
https://github.com/NilsHellwig/GERestaurant/blob/main/annotation_guideline.pdf
下载链接
链接失效反馈官方服务:
资源简介:
GERestaurant是由雷根斯堡大学媒体信息学团队创建的德语餐厅评论数据集,包含3078条手动标注的评论,用于基于方面的情感分析(ABSA)。数据集从Tripadvisor收集,涵盖多种餐厅类型和烹饪风格。标注包括方面术语、对应的方面类别及表达的情感。数据集的创建旨在填补德语资源的空白,并促进餐厅领域ABSA方法的探索。
提供机构:
雷根斯堡大学
创建时间:
2024-08-15
搜集汇总
数据集介绍

构建方式
GERestaurant 数据集的构建始于对 Tripadvisor 网站上德国餐厅评论的收集。研究人员选取了德国 25 个最密集城市的五家拥有最多顾客评论的餐厅,涵盖了从 2022 年 10 月 15 日到 2023 年 10 月 15 日期间发表的所有评论。为了确保评论的真实性和多样性,评论被细分为句子,并使用语言检测工具过滤掉非德语句子。最终,数据集包含了 3,078 条德语餐厅评论,这些评论被手动标注,以适应基于方面的情感分析(ABSA)。标注过程包括对评论中的方面术语、相应的方面类别以及对这些方面的情感倾向进行标注。
特点
GERestaurant 数据集的特点在于其详尽的标注和多样化的餐厅评论。该数据集涵盖了从 Tripadvisor 网站上收集的评论,这些评论代表了不同地区和国际菜系,以及各种烹饪风格。标注不仅包括显式方面,还包括隐式方面,即那些没有明确提及方面术语但表达了情感的评论。此外,数据集还提供了四个 ABSA 任务的基线分数,包括方面类别检测、方面类别情感分析、端到端 ABSA 和目标方面情感检测。这使得 GERestaurant 成为德国语言资源中的一个宝贵补充,并促进了 ABSA 在餐厅领域的探索。
使用方法
使用 GERestaurant 数据集进行 ABSA 研究时,研究者可以参考数据集中提供的基线分数,并利用这些分数来评估和比较他们的模型性能。数据集可以用于训练和测试基于转换器的语言模型,如 gbert-large 和 gbert-base,这些模型已被证明在 ABSA 任务中具有良好的性能。此外,数据集还可以用于开发新的 ABSA 方法,并探索在德语环境中应用 ABSA 的可能性。研究者可以通过分析数据集中不同方面类别的分布和情感倾向,来深入了解餐厅评论中的情感表达,并据此改进他们的情感分析模型。
背景与挑战
背景概述
在自然语言处理(NLP)领域,情感分析(SA)是一个重要的研究方向,它涉及对个体情感、观点和情绪的计算机化分类。特别是,面向方面的情感分析(ABSA)超越了评估一般情感,而是通过将特定方面与相应的情感极性相链接,对情感进行更细粒度的分析。为了促进ABSA的研究,GERestaurant数据集被创建,这是一个由3,078条德语餐厅评论组成的新数据集,这些评论被手动标注用于ABSA。这些评论是从Tripadvisor收集的,涵盖了各种类型的餐厅,包括地区和国际美食,以及各种烹饪风格。标注包括隐式和显式方面,包括所有方面术语、它们对应的方面类别以及针对它们的情感。此外,还提供了四个ABSA任务的基线分数:方面类别检测、方面类别情感分析、端到端ABSA和目标方面情感检测,作为未来进展的参考点。该数据集填补了德语语言资源的空白,并促进了在餐厅领域探索ABSA。
当前挑战
GERestaurant数据集在ABSA领域带来了几个挑战。首先,数据集的标注基于人工判断,这引入了主观性和潜在的不一致性。其次,标注的质量受到限制,因为每个示例不是由多个标注者独立标注,而是由一个标注者标注所有句子,然后由另一个标注者审查。此外,五个方面类别之间的不平衡可以被认为是这项工作的一个限制。例如,价格类别分配的方面最少(251),而大多数方面(1,676)分配给了食物类别。类似的不平衡也体现在情感极性方面,只有175个方面表达了中性情感,而2,283个方面表达了积极情感,这代表了所有方面的一半以上。
常用场景
经典使用场景
GERestaurant数据集的经典使用场景在于Aspect-Based Sentiment Analysis (ABSA)任务。该数据集提供了3,078条德语餐厅评论,每条评论都被手动标注了相关方面(如食物、服务、氛围和价格)及其对应的情感倾向。这使得研究者能够进行基于方面的情感分析,从而更深入地理解消费者对餐厅各个方面的评价。此外,该数据集还提供了四个ABSA任务的基准分数,为未来的研究进展提供了参考点。
解决学术问题
GERestaurant数据集解决了德语语言资源在ABSA领域中的匮乏问题。在此之前,德语ABSA领域的研究受到了数据集的限制。GERestaurant数据集的推出,为德语ABSA研究提供了重要的资源,促进了该领域的发展。此外,该数据集的推出也推动了ABSA方法在餐厅领域的探索,有助于研究者开发更有效的ABSA模型。
衍生相关工作
GERestaurant数据集衍生了多项相关的研究工作。例如,基于GERestaurant数据集,研究者可以开发更有效的ABSA模型,提高ABSA任务的准确率。此外,研究者还可以利用GERestaurant数据集来探索ABSA任务在不同领域的应用,例如酒店、旅游和电子商务等领域。
以上内容由遇见数据集搜集并总结生成



