five

MultiBooked

收藏
arXiv2018-03-23 更新2024-06-21 收录
下载链接:
http://hdl.handle.net/10230/33928 or https://jbarnesspain.github.io/resources/
下载链接
链接失效反馈
官方服务:
资源简介:
MultiBooked是由庞培法布拉大学创建的一个包含巴斯克语和加泰罗尼亚语酒店评论的数据集,专注于方面级情感分类。该数据集包含568条加泰罗尼亚语评论和343条巴斯克语评论,数据来源于2015年11月至2016年1月期间从多个网站爬取的酒店评论。数据集的创建过程包括数据收集、预处理和标注,旨在为研究方面级情感分析提供资源,特别是在资源较少的语言中。该数据集的应用领域包括跨语言和多语言情感分析,以及为巴斯克语和加泰罗尼亚语提供首个方面级情感分析资源。

MultiBooked is an aspect-level sentiment classification dataset developed by Pompeu Fabra University, which comprises hotel reviews in Basque and Catalan. It contains 568 Catalan hotel reviews and 343 Basque hotel reviews, all crawled from multiple websites between November 2015 and January 2016. The dataset was constructed through three main stages: data collection, preprocessing and annotation, with the purpose of providing research resources for aspect-level sentiment analysis, particularly for low-resource languages. Its applicable fields include cross-lingual and multilingual sentiment analysis, as well as offering the first dedicated aspect-level sentiment analysis resources for Basque and Catalan.
提供机构:
庞培法布拉大学
创建时间:
2018-03-23
搜集汇总
数据集介绍
main_image_url
构建方式
在情感分析领域,针对资源匮乏语言的研究常受限于标注数据的稀缺。MultiBooked数据集的构建旨在填补巴斯克语和加泰罗尼亚语在细粒度情感分析方面的空白。其构建过程始于从在线酒店预订平台(如Booking.com)及其他相关网站爬取用户评论,时间跨度为2015年11月至2016年1月。通过简单的语言识别方法,研究者剔除了西班牙语或混合语言的评论,并过滤了长度不足7个词元的文本,最终获得了568条加泰罗尼亚语评论和343条巴斯克语评论。随后,数据经过轻度归一化处理,并利用Ixa-pipes工具进行词元化、词性标注和词形还原,最终以KAF/NAF格式存储,保留了原始文本并附加多层语言学信息。
使用方法
MultiBooked数据集为监督式细粒度情感分析任务提供了直接的应用路径。研究者可将数据用于意见目标、意见表达及意见持有者的提取,这些任务通常被建模为序列标注问题,例如将标注转换为BIO格式进行训练。同时,数据支持意见表达极性的分类,可采用词袋模型等特征提取方法结合线性SVM分类器。评估时,建议使用10折交叉验证,以80%的数据作为训练集,并采用加权F1分数衡量性能。数据集以KAF/NAF格式提供,便于集成语言学特征(如词性标记),且与现有多语言语料库兼容,有助于探索跨语言迁移学习或比较分析。基准实验表明,即使使用简单基线系统,也能获得与英语类似任务可比的结果,为资源匮乏语言的情感分析研究奠定了实证基础。
背景与挑战
背景概述
在情感分析领域,尽管英语资源已相当丰富,但针对资源匮乏语言的研究仍面临显著障碍。MultiBooked数据集由庞培法布拉大学的Jeremy Barnes、Patrik Lambert和Toni Badia于2018年创建,旨在填补巴斯克语和加泰罗尼亚语在细粒度情感分析方面的空白。该数据集专注于酒店评论中的方面级情感分类,通过高质量标注支持监督学习方法,为这两种低资源语言的首个方面级情感分析资源,推动了跨语言情感分析研究的发展,对语言多样性保护及自然语言处理技术的普适性提升具有深远影响。
当前挑战
MultiBooked数据集致力于解决资源匮乏语言中方面级情感分析的挑战,包括复杂形态学处理、标注一致性维护及跨语言模型迁移困难。在构建过程中,数据收集面临语言混杂与数据稀缺问题,需通过语言识别技术筛选纯语言评论;标注环节则因嵌套观点、隐式情感表达及标注跨度选择模糊而增加难度,需设计迭代标注流程与冲突解决机制以确保数据质量。
常用场景
经典使用场景
在情感分析领域,尤其是针对资源稀缺语言的研究中,MultiBooked数据集为巴斯克语和加泰罗尼亚语的细粒度情感分析提供了关键支持。该数据集通过标注酒店评论中的观点持有者、目标及表达,构建了面向方面级情感分类的监督学习资源。其经典应用场景在于训练和评估跨语言情感分析模型,帮助研究者克服语言资源不足的障碍,推动多语言自然语言处理技术的发展。
解决学术问题
MultiBooked数据集有效解决了资源稀缺语言在情感分析研究中缺乏高质量标注数据的问题。通过提供巴斯克语和加泰罗尼亚语的方面级情感标注,该数据集支持监督学习方法的应用,弥补了以往依赖无监督或半监督技术导致的性能局限。其意义在于促进了语言多样性研究,为复杂形态语言的情感分析提供了实证基础,推动了跨语言情感分析领域的理论进展与技术突破。
实际应用
在实际应用中,MultiBooked数据集为多语言商业智能和客户反馈分析提供了重要工具。酒店和旅游行业可利用该数据集训练情感分析系统,自动识别客户评论中对特定方面(如服务、设施、位置)的情感倾向,从而优化服务质量与运营策略。此外,该资源支持开发面向巴斯克和加泰罗尼亚地区的本地化情感分析应用,增强跨语言市场洞察能力,提升企业决策效率。
数据集最近研究
最新研究方向
在情感分析领域,MultiBooked数据集的推出为巴斯克语和加泰罗尼亚语这类资源稀缺语言的研究开辟了新路径。当前前沿研究聚焦于跨语言迁移学习与多语言预训练模型的融合,旨在利用高资源语言的数据提升低资源语言在细粒度情感分析任务上的性能。随着全球多语言NLP社区的兴起,该数据集已成为探索语言形态复杂性对情感表达影响的关键基准,推动了针对非英语语言的公平性与包容性技术发展,并在旅游与跨文化沟通等实际场景中展现出深远应用潜力。
相关研究论文
  • 1
    MultiBooked: A Corpus of Basque and Catalan Hotel Reviews Annotated for Aspect-level Sentiment Classification庞培法布拉大学 · 2018年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作