five

挪威评论语料库 (NoReC)

收藏
arXiv2017-10-16 更新2024-06-21 收录
下载链接:
https://github.com/ltgoslo/norec
下载链接
链接失效反馈
官方服务:
资源简介:
挪威评论语料库(NoReC)是由奥斯陆大学的语言技术组创建,用于文档级情感分析的训练和评估。该数据集包含超过35,000篇来自挪威主要新闻源的全文评论,涵盖文学、电影、视频游戏、餐厅、音乐和剧院等多个领域。每篇评论都附有一个1到6的手动评分。NoReC的创建过程涉及从多种格式中提取和预处理文本,最终以CoNLL-U格式和丰富的元数据发布。该数据集主要用于挪威语言的情感分析和意见挖掘,填补了挪威语言技术中情感分析资源的空白。

The Norwegian Review Corpus (NoReC) was created by the Language Technology Group at the University of Oslo for training and evaluating document-level sentiment analysis systems. This corpus includes over 35,000 full-text reviews sourced from leading Norwegian news outlets, covering a wide range of domains such as literature, films, video games, restaurants, music, and theatre. Each review is paired with a manual rating ranging from 1 to 6. The construction of NoReC involved extracting and preprocessing text from diverse formats, and it is officially released in CoNLL-U format with comprehensive metadata. This dataset is primarily applied to sentiment analysis and opinion mining for the Norwegian language, filling the critical gap in sentiment analysis resources for Norwegian language technology.
提供机构:
语言技术组,信息学系,奥斯陆大学
创建时间:
2017-10-16
搜集汇总
数据集介绍
main_image_url
构建方式
挪威评论语料库(NoReC)的构建源于对挪威语情感分析资源的迫切需求,旨在填补该语言在文档级情感分析领域的空白。该语料库由奥斯陆大学语言技术组与挪威三大媒体集团(NRK、Schibsted、Aller Media)合作,从八家主要新闻源中提取了超过35,000篇全文评论。构建过程分为四个关键步骤:首先,通过检测元数据中的评分字段或骰子图像链接等启发式规则识别评论文章,并分离同一文档中的多篇子评论;其次,将原始HTML、JSON等格式的文档统一转换为规范的HTML格式,保留所有内容但用特殊标签标记广告等非相关文本;随后,利用UDPipe工具对提取的文本进行句子分割、词形还原、词性标注和依存句法分析,生成符合Universal Dependencies的CoNLL-U格式;最后,为每篇评论提取包括数值评分、发表日期、作者、主题类别等元数据,并统一归一化为JSON格式。
使用方法
研究人员可通过NoReC的GitHub仓库获取两种格式的语料:主格式为CoNLL-U文件,每篇评论独立存储,内含经UDPipe预处理的词形、词性及依存关系信息;辅助格式为规范HTML文件,保留原始文章结构。配套的Python模块提供了读取CoNLL-U和JSON元数据的便捷接口,并附有将CoNLL-U转换为纯文本或词形序列的脚本。使用时应根据任务需求选择数据划分:文档级情感分析可直接利用1-6评分作为标签;跨领域研究可借助九个主题类别评估模型迁移性能;对于需要原始文本的应用,可从HTML中提取未预处理的内容。数据集采用CC BY-NC 4.0许可协议,适用于非商业研究与教学场景。
背景与挑战
背景概述
挪威语作为一种资源匮乏的语言,在情感分析等核心自然语言处理任务中长期缺乏充足的训练与评估数据。为填补这一空白,奥斯陆大学语言技术组(LTG)联合挪威广播公司(NRK)、Schibsted媒体集团及Aller Media等多家主流媒体机构,于2017年启动了SANT项目(挪威语文情感分析),并发布了挪威评论语料库(NoReC)。该数据集收录了来自八家新闻来源、涵盖文学、电影、音乐、餐饮等九个领域的35,194篇全文评论,每篇评论均附有作者提供的1至6分制骰子评分,可直接用于文档级情感分析模型的训练与评估。NoReC的诞生为挪威语自然语言处理研究提供了里程碑式的资源,有力推动了低资源语言情感分析技术的进步。
当前挑战
NoReC数据集面临的挑战首先体现在领域问题的复杂性上:评论覆盖范围极广,从文学、电影到电子产品、体育,跨领域情感分析的泛化能力成为核心难题,不同领域的语言风格与评价标准差异显著,模型需具备高度鲁棒性。其次,构建过程中遭遇多重技术障碍:原始数据来自多种异构格式(JSON、HTML、XML),需通过启发式规则识别评论、分离多产品子评论,并剔除广告等无关内容;挪威语存在书面标准语Bokmål与Nynorsk两种变体,需借助语言识别工具精准区分后调用不同的预处理管道;最终通过UDPipe实现分词、词性标注与依存句法分析,但面对海量数据(逾1400万词元),流程的自动化与一致性保障仍是严峻考验。
常用场景
经典使用场景
在自然语言处理领域,挪威评论语料库(NoReC)最经典的应用场景是作为文档级情感分析任务的基准数据集。该语料库汇聚了来自挪威主要新闻媒体的超过三万五千篇全文评论,涵盖文学、电影、电子游戏、餐饮、音乐、戏剧及多类产品评论。每篇评论均附有作者手动评定的1至6分制评分,这一独特的掷骰评分体系为情感极性分类和评分预测提供了天然标注,使得研究者能够直接利用该数据集训练和评估面向挪威语的细粒度情感分析模型。
解决学术问题
NoReC的诞生有效填补了挪威语情感分析领域资源匮乏的空白。在学术研究中,它解决了因缺乏大规模、多领域标注语料而难以开展挪威语文档级情感分析实验的困境。通过提供统一的评分标签和丰富的元数据(如主题类别、出版来源、语言变体),该数据集支持跨领域情感分析泛化能力的研究,帮助学者探究在不同主题(如电影评论与电子产品评论)间迁移学习的效果,并推动了挪威语自然语言处理从规则方法向数据驱动深度学习范式的转型。
实际应用
在实际应用中,NoReC为挪威语媒体和商业领域提供了强大的情感分析工具。媒体集团可利用该数据集训练的模型自动评估用户对电影、音乐、书籍等文化产品的评论倾向,从而优化内容推荐和编辑策略。电商平台和产品评测网站能够借助情感分类系统快速分析消费者对商品(如电子产品、服饰)的反馈,提取正面与负面意见,辅助市场调研和品牌声誉管理。此外,该语料库还为政府机构和非营利组织监测公众舆论、分析社会热点提供了技术基础。
数据集最近研究
最新研究方向
在低资源语言情感分析领域,挪威评论语料库(NoReC)的发布为北欧语种的自然语言处理研究注入了新动能。该数据集基于挪威新闻媒体中独特的骰子评分传统(1-6分制),汇集了来自文学、影视、音乐、餐饮等多元领域的超过35,000篇全文评论,覆盖了Bokmål与Nynorsk两种官方书面语标准。前沿研究正聚焦于利用NoReC进行文档级情感极性分类与评分推断,探索基于神经架构的跨领域情感迁移学习,并着手构建面向挪威语的细粒度方面级情感标注子集。这一资源填补了挪威语情感分析语料的空白,为学术研究与工业应用提供了高价值的基准平台,推动了斯堪的纳维亚语言技术生态的完善与多语言情感分析范式的拓展。
相关研究论文
  • 1
    NoReC: The Norwegian Review Corpus语言技术组,信息学系,奥斯陆大学 · 2017年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作