five

ltgoslo/norec

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ltgoslo/norec
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含挪威评论语料库(NoReC),用于训练和评估文档级情感分析模型。数据集收集了超过43,000篇来自挪威主要新闻源的全文评论,涵盖了文学、电影、视频游戏、餐厅、音乐和剧院等多个领域,以及各种类别的产品评论。每篇评论都带有原始作者提供的1-6分的手动评分。数据集的语言为挪威语(nb, nn, no),并且是单语的。数据集的结构包括训练集、验证集和测试集,分别包含680,792、101,106和101,594个句子。数据集的字段包括索引、文本、词元、词性标签等。

该数据集包含挪威评论语料库(NoReC),用于训练和评估文档级情感分析模型。数据集收集了超过43,000篇来自挪威主要新闻源的全文评论,涵盖了文学、电影、视频游戏、餐厅、音乐和剧院等多个领域,以及各种类别的产品评论。每篇评论都带有原始作者提供的1-6分的手动评分。数据集的语言为挪威语(nb, nn, no),并且是单语的。数据集的结构包括训练集、验证集和测试集,分别包含680,792、101,106和101,594个句子。数据集的字段包括索引、文本、词元、词性标签等。
提供机构:
ltgoslo
原始信息汇总

数据集概述

  • 名称: NoReC
  • 语言: 挪威语(nb, nn, no)
  • 许可证: CC-BY-NC-4.0
  • 多语言性: 单语种
  • 大小: 100K<n<1M
  • 源数据: 原始数据
  • 任务类别: 词元分类
  • 任务ID: 命名实体识别
  • 论文代码ID: norec

数据集结构

数据实例

  • 字段:
    • idx: 字符串
    • text: 字符串
    • tokens: 字符串序列
    • lemmas: 字符串序列
    • pos_tags: 序列,包含以下类别:ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, SYM, VERB, X
    • xpos_tags: 字符串序列
    • feats: 字符串序列
    • head: 字符串序列
    • deprel: 字符串序列
    • deps: 字符串序列
    • misc: 字符串序列

数据分割

  • 训练集: 680792个实例
  • 验证集: 101106个实例
  • 测试集: 101594个实例

数据集创建

许可证信息

  • 许可证: CC-BY-NC-4.0

引用信息

@InProceedings{VelOvrBer18, author = {Erik Velldal and Lilja {O}vrelid and Eivind Alexander Bergem and Cathrine Stadsnes and Samia Touileb and Fredrik J{o}rgensen}, title = {{NoReC}: The {N}orwegian {R}eview {C}orpus}, booktitle = {Proceedings of the 11th edition of the Language Resources and Evaluation Conference}, year = {2018}, address = {Miyazaki, Japan}, pages = {4186--4191} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作