ltg/norec_sentence
收藏数据集卡片 NoReC_sentence
数据集概述
NoReC_sentence 是一个用于挪威语句子级极性分类的数据集,源自 NoReC_fine 的细粒度标注。该数据集仅保留包含正面或负面极性(但不同时包含两者)的句子,以及不含情感的句子(中性)。包含混合极性的句子被排除在外。数据集包含预定义的训练/开发/测试集划分,并提供三种不同版本:binary(仅包含正面或负面句子)、ternary(额外包含中性例子)和 mixed(额外包含混合极性句子)。
数据集详情
数据集描述
- 语言: 挪威语(Nokmål 和 Nynorsk)
- 许可: 数据集在 Creative Commons Attribution-NonCommercial 许可(CC BY-NC 4.0)下发布。
数据集结构
数据集分为三种配置:
配置:binary
- 特征:
id: 字符串review: 字符串sentiment: 64 位整数
- 分割:
train: 3894 个样本,504530 字节validation: 701 个样本,90797 字节test: 583 个样本,76423 字节
- 下载大小: 419034 字节
- 数据集大小: 671750 字节
配置:mixed
- 特征:
id: 字符串review: 字符串sentiment: 64 位整数序列
- 分割:
train: 8634 个样本,1069392 字节validation: 1531 个样本,192121 字节test: 1272 个样本,160492 字节
- 下载大小: 833704 字节
- 数据集大小: 1422005 字节
配置:ternary
- 特征:
id: 字符串review: 字符串sentiment: 64 位整数
- 分割:
train: 7973 个样本,914901 字节validation: 1411 个样本,165845 字节test: 1181 个样本,139828 字节
- 下载大小: 745057 字节
- 数据集大小: 1220574 字节
数据集创建
- 来源数据: 句子级标注从 NoReC_fine 数据集聚合而来,NoReC_fine 是 Norwegian Review Corpus (NoReC) 的一个子集。
- 标注者: 原始标注由雇佣的标注者完成,这些标注者是挪威大学语言技术研究项目的 BSc 或 MSc 学生。
推荐
- 偏差和风险: 该数据集的结果可能不适用于其他领域或类型的文本。原始评论作者的情感偏差可能会传递到基于此数据集训练的模型中。
引用
-
BibTeX: bibtex @InProceedings{KutBarVel21, author = {Andrey Kutuzov and Jeremy Barnes and Erik Velldal and Lilja {O}vrelid and Stephan Oepen}, title = {Large-Scale Contextualised Language Modelling for Norwegian}, booktitle = {{Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa 2021)}}, year = 2021 }
@InProceedings{OvrMaeBar20, author = {Lilja {O}vrelid and Petter M{ae}hlum and Jeremy Barnes and Erik Velldal}, title = {A Fine-grained Sentiment Dataset for {N}orwegian}, booktitle = {{Proceedings of the 12th Edition of the Language Resources and Evaluation Conference}}, year = 2020, address = "Marseille, France, 2020" }



