ltgoslo/norec
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ltgoslo/norec
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含挪威评论语料库(NoReC),用于训练和评估文档级情感分析模型。数据集收集了超过43,000篇来自挪威主要新闻源的全文评论,涵盖了文学、电影、视频游戏、餐厅、音乐和剧院等多个领域,以及各种类别的产品评论。每篇评论都带有原始作者提供的1-6分的手动评分。数据集的语言为挪威语(nb, nn, no),并且是单语的。数据集的结构包括训练集、验证集和测试集,分别包含680,792、101,106和101,594个句子。数据集的字段包括索引、文本、词元、词性标签等。
该数据集包含挪威评论语料库(NoReC),用于训练和评估文档级情感分析模型。数据集收集了超过43,000篇来自挪威主要新闻源的全文评论,涵盖了文学、电影、视频游戏、餐厅、音乐和剧院等多个领域,以及各种类别的产品评论。每篇评论都带有原始作者提供的1-6分的手动评分。数据集的语言为挪威语(nb, nn, no),并且是单语的。数据集的结构包括训练集、验证集和测试集,分别包含680,792、101,106和101,594个句子。数据集的字段包括索引、文本、词元、词性标签等。
提供机构:
ltgoslo
原始信息汇总
数据集概述
- 名称: NoReC
- 语言: 挪威语(nb, nn, no)
- 许可证: CC-BY-NC-4.0
- 多语言性: 单语种
- 大小: 100K<n<1M
- 源数据: 原始数据
- 任务类别: 词元分类
- 任务ID: 命名实体识别
- 论文代码ID: norec
数据集结构
数据实例
- 字段:
- idx: 字符串
- text: 字符串
- tokens: 字符串序列
- lemmas: 字符串序列
- pos_tags: 序列,包含以下类别:ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, SYM, VERB, X
- xpos_tags: 字符串序列
- feats: 字符串序列
- head: 字符串序列
- deprel: 字符串序列
- deps: 字符串序列
- misc: 字符串序列
数据分割
- 训练集: 680792个实例
- 验证集: 101106个实例
- 测试集: 101594个实例
数据集创建
许可证信息
- 许可证: CC-BY-NC-4.0
引用信息
@InProceedings{VelOvrBer18, author = {Erik Velldal and Lilja {O}vrelid and Eivind Alexander Bergem and Cathrine Stadsnes and Samia Touileb and Fredrik J{o}rgensen}, title = {{NoReC}: The {N}orwegian {R}eview {C}orpus}, booktitle = {Proceedings of the 11th edition of the Language Resources and Evaluation Conference}, year = {2018}, address = {Miyazaki, Japan}, pages = {4186--4191} }



