ltg/norec_document
收藏Hugging Face2024-06-19 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/ltg/norec_document
下载链接
链接失效反馈官方服务:
资源简介:
NoReC_document数据集是一个用于挪威语文档级情感分类的数据集,提供了二分类(正面/负面)和三分类(正面/中性/负面)两种版本。数据集来源于挪威评论语料库(NoReC),包含了来自多个挪威新闻源的专业评论,涵盖了文学、电影、视频游戏、餐厅、音乐和戏剧等多个领域。每个数据实例包含唯一的文档标识符、评论文本和情感标签。数据集的创建和共享由奥斯陆大学的语言技术组(LTG)负责,并得到了挪威研究委员会的支持。数据集的使用受限于非商业用途的Creative Commons Attribution-NonCommercial许可证。
The NoReC_document dataset is designed for document-level sentiment classification in Norwegian, offering both binary (positive/negative) and ternary (positive/fair/negative) versions. Derived from the Norwegian Review Corpus (NoReC), it includes professional reviews from various Norwegian news sources, covering domains such as literature, movies, video games, restaurants, music, and theater. Each instance in the dataset features a unique document identifier, review text, and sentiment label. The dataset was curated and shared by the Language Technology Group (LTG) at the University of Oslo, with support from the Research Council of Norway. Usage of the dataset is restricted by a Creative Commons Attribution-NonCommercial license.
提供机构:
ltg
原始信息汇总
数据集概述
数据集详情
该数据集用于挪威语文档级情感分类,源自挪威评论语料库(NoReC)。提供了两种简化版本的NoReC:二元版本和三元版本。二元版本将原始的六点数值评分映射为正负两类,三元版本则映射为正、中、负三类。
数据集配置
二元版本
- 特征:
id: 字符串类型,唯一文档标识符review: 字符串类型,实际评论文本sentiment: 64位整数类型,情感类别标签(0 = 负,1 = 正)
- 分割:
train: 23445个样本,58962251字节validation: 2939个样本,8684098字节test: 2955个样本,8823050字节
- 下载大小: 49890837字节
- 数据集大小: 76469399字节
三元版本
- 特征:
id: 字符串类型,唯一文档标识符review: 字符串类型,实际评论文本sentiment: 64位整数类型,情感类别标签(0 = 负,1 = 正,2 = 中)
- 分割:
train: 34749个样本,86258820字节validation: 4348个样本,12575768字节test: 4340个样本,12734928字节
- 下载大小: 72750831字节
- 数据集大小: 111569516字节
数据文件路径
- 二元版本:
train:binary/train-*validation:binary/validation-*test:binary/test-*
- 三元版本:
train:ternary/train-*validation:ternary/validation-*test:ternary/test-*
使用场景
该数据集旨在用于训练和测试挪威语文档级情感分类模型,支持二元(正/负)和三元(正/中/负)分类。
数据结构
每个数据实例包含以下三个字段:
id: 唯一文档标识符review: 实际评论文本sentiment: 情感类别标签,取值如下:- 0 = 负
- 1 = 正
- 2 = 中(仅在三元版本中可用)
源数据
文档级标签源自挪威评论语料库(NoReC),包含来自挪威主要新闻来源的超过43K篇全文本专业评论,涵盖多个领域。
许可证
数据集遵循Creative Commons Attribution-NonCommercial许可证(CC BY-NC 4.0)。



