five

ltg/norec_tsa

收藏
Hugging Face2024-02-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ltg/norec_tsa
下载链接
链接失效反馈
官方服务:
资源简介:
NoReC TSA数据集是一个用于挪威语针对性情感分析(TSA)的数据集,包含标记了情感极性的挪威语句子。数据集来源于NoReC_fine数据集,后者又来源于挪威评论语料库(NoReC)。数据集由奥斯陆大学的语言技术组(LTG)和SANT项目(挪威文本情感分析)创建和维护,并由挪威研究理事会资助。数据集包含两个配置:默认配置和强度配置,分别提供二元情感标签和带有情感强度的标签。数据集不包含个人或敏感信息,但可能存在原始评论作者的偏见。

NoReC TSA数据集是一个用于挪威语针对性情感分析(TSA)的数据集,包含标记了情感极性的挪威语句子。数据集来源于NoReC_fine数据集,后者又来源于挪威评论语料库(NoReC)。数据集由奥斯陆大学的语言技术组(LTG)和SANT项目(挪威文本情感分析)创建和维护,并由挪威研究理事会资助。数据集包含两个配置:默认配置和强度配置,分别提供二元情感标签和带有情感强度的标签。数据集不包含个人或敏感信息,但可能存在原始评论作者的偏见。
提供机构:
ltg
原始信息汇总

数据集概述

名称: NoReC TSA

语言: 挪威语(主要为Bokmål变体)

许可: Creative Commons Attribution-NonCommercial 4.0 (CC BY-NC 4.0)

大小类别: 10K<n<100K

任务类别: 令牌分类

配置:

  • 默认配置: 提供二元情感描述(正面/负面)
  • 强度配置: 提供情感强度标签(轻微、标准、强烈)

数据集大小:

  • 默认配置: 下载大小899078字节,数据集大小3054326字节
  • 强度配置: 下载大小902284字节,数据集大小3080506字节

分割:

  • 训练集: 默认配置8634个样本,强度配置8634个样本
  • 验证集: 默认配置1531个样本,强度配置1531个样本
  • 测试集: 默认配置1272个样本,强度配置1272个样本

数据实例特征:

  • idx (str): 唯一文档和句子标识符
  • tokens (List[str]): 句子中的令牌列表
  • tsa_tags (List[str]): 每个令牌的BIO格式标签列表

数据集来源:

  • 源数据: 来自Norwegian Review Corpus (NoReC) 的子集,包含来自多个领域的专业评论
  • 注释者: 由语言技术研究项目的学生进行注释

使用目的: 用于训练和测试针对挪威语句子的目标情感分析(TSA)模型,识别和分类情感目标

数据集结构:

  • 包含预定义的训练、验证和测试分割
  • 数据实例示例包括令牌及其对应的情感标签

注意事项:

  • 数据集可能不涵盖所有文本域或类型,模型训练结果可能存在偏差
  • 数据不包含个人信息或敏感信息
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作