挪威评论语料库 (NoReC)

Name: 挪威评论语料库 (NoReC)
Creator: 语言技术组，信息学系，奥斯陆大学
Published: 2017-10-16 02:15:35
License: 暂无描述

arXiv2017-10-16 更新2024-06-21 收录

下载链接：

https://github.com/ltgoslo/norec

下载链接

链接失效反馈

官方服务：

资源简介：

挪威评论语料库(NoReC)是由奥斯陆大学的语言技术组创建，用于文档级情感分析的训练和评估。该数据集包含超过35,000篇来自挪威主要新闻源的全文评论，涵盖文学、电影、视频游戏、餐厅、音乐和剧院等多个领域。每篇评论都附有一个1到6的手动评分。NoReC的创建过程涉及从多种格式中提取和预处理文本，最终以CoNLL-U格式和丰富的元数据发布。该数据集主要用于挪威语言的情感分析和意见挖掘，填补了挪威语言技术中情感分析资源的空白。

The Norwegian Review Corpus (NoReC) was created by the Language Technology Group at the University of Oslo for training and evaluating document-level sentiment analysis systems. This corpus includes over 35,000 full-text reviews sourced from leading Norwegian news outlets, covering a wide range of domains such as literature, films, video games, restaurants, music, and theatre. Each review is paired with a manual rating ranging from 1 to 6. The construction of NoReC involved extracting and preprocessing text from diverse formats, and it is officially released in CoNLL-U format with comprehensive metadata. This dataset is primarily applied to sentiment analysis and opinion mining for the Norwegian language, filling the critical gap in sentiment analysis resources for Norwegian language technology.

提供机构：

语言技术组，信息学系，奥斯陆大学

创建时间：

2017-10-16

搜集汇总

数据集介绍

构建方式

挪威评论语料库（NoReC）的构建源于对挪威语情感分析资源的迫切需求，旨在填补该语言在文档级情感分析领域的空白。该语料库由奥斯陆大学语言技术组与挪威三大媒体集团（NRK、Schibsted、Aller Media）合作，从八家主要新闻源中提取了超过35,000篇全文评论。构建过程分为四个关键步骤：首先，通过检测元数据中的评分字段或骰子图像链接等启发式规则识别评论文章，并分离同一文档中的多篇子评论；其次，将原始HTML、JSON等格式的文档统一转换为规范的HTML格式，保留所有内容但用特殊标签标记广告等非相关文本；随后，利用UDPipe工具对提取的文本进行句子分割、词形还原、词性标注和依存句法分析，生成符合Universal Dependencies的CoNLL-U格式；最后，为每篇评论提取包括数值评分、发表日期、作者、主题类别等元数据，并统一归一化为JSON格式。

使用方法

研究人员可通过NoReC的GitHub仓库获取两种格式的语料：主格式为CoNLL-U文件，每篇评论独立存储，内含经UDPipe预处理的词形、词性及依存关系信息；辅助格式为规范HTML文件，保留原始文章结构。配套的Python模块提供了读取CoNLL-U和JSON元数据的便捷接口，并附有将CoNLL-U转换为纯文本或词形序列的脚本。使用时应根据任务需求选择数据划分：文档级情感分析可直接利用1-6评分作为标签；跨领域研究可借助九个主题类别评估模型迁移性能；对于需要原始文本的应用，可从HTML中提取未预处理的内容。数据集采用CC BY-NC 4.0许可协议，适用于非商业研究与教学场景。

背景与挑战

背景概述

挪威语作为一种资源匮乏的语言，在情感分析等核心自然语言处理任务中长期缺乏充足的训练与评估数据。为填补这一空白，奥斯陆大学语言技术组（LTG）联合挪威广播公司（NRK）、Schibsted媒体集团及Aller Media等多家主流媒体机构，于2017年启动了SANT项目（挪威语文情感分析），并发布了挪威评论语料库（NoReC）。该数据集收录了来自八家新闻来源、涵盖文学、电影、音乐、餐饮等九个领域的35,194篇全文评论，每篇评论均附有作者提供的1至6分制骰子评分，可直接用于文档级情感分析模型的训练与评估。NoReC的诞生为挪威语自然语言处理研究提供了里程碑式的资源，有力推动了低资源语言情感分析技术的进步。

当前挑战

NoReC数据集面临的挑战首先体现在领域问题的复杂性上：评论覆盖范围极广，从文学、电影到电子产品、体育，跨领域情感分析的泛化能力成为核心难题，不同领域的语言风格与评价标准差异显著，模型需具备高度鲁棒性。其次，构建过程中遭遇多重技术障碍：原始数据来自多种异构格式（JSON、HTML、XML），需通过启发式规则识别评论、分离多产品子评论，并剔除广告等无关内容；挪威语存在书面标准语Bokmål与Nynorsk两种变体，需借助语言识别工具精准区分后调用不同的预处理管道；最终通过UDPipe实现分词、词性标注与依存句法分析，但面对海量数据（逾1400万词元），流程的自动化与一致性保障仍是严峻考验。

常用场景

经典使用场景

在自然语言处理领域，挪威评论语料库（NoReC）最经典的应用场景是作为文档级情感分析任务的基准数据集。该语料库汇聚了来自挪威主要新闻媒体的超过三万五千篇全文评论，涵盖文学、电影、电子游戏、餐饮、音乐、戏剧及多类产品评论。每篇评论均附有作者手动评定的1至6分制评分，这一独特的掷骰评分体系为情感极性分类和评分预测提供了天然标注，使得研究者能够直接利用该数据集训练和评估面向挪威语的细粒度情感分析模型。

解决学术问题

NoReC的诞生有效填补了挪威语情感分析领域资源匮乏的空白。在学术研究中，它解决了因缺乏大规模、多领域标注语料而难以开展挪威语文档级情感分析实验的困境。通过提供统一的评分标签和丰富的元数据（如主题类别、出版来源、语言变体），该数据集支持跨领域情感分析泛化能力的研究，帮助学者探究在不同主题（如电影评论与电子产品评论）间迁移学习的效果，并推动了挪威语自然语言处理从规则方法向数据驱动深度学习范式的转型。

实际应用

在实际应用中，NoReC为挪威语媒体和商业领域提供了强大的情感分析工具。媒体集团可利用该数据集训练的模型自动评估用户对电影、音乐、书籍等文化产品的评论倾向，从而优化内容推荐和编辑策略。电商平台和产品评测网站能够借助情感分类系统快速分析消费者对商品（如电子产品、服饰）的反馈，提取正面与负面意见，辅助市场调研和品牌声誉管理。此外，该语料库还为政府机构和非营利组织监测公众舆论、分析社会热点提供了技术基础。

数据集最近研究