five

projecte-aina/CaSSA-catalan-structured-sentiment-analysis

收藏
Hugging Face2024-10-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/CaSSA-catalan-structured-sentiment-analysis
下载链接
链接失效反馈
官方服务:
资源简介:
CaSSA数据集是一个包含6400条评论和论坛消息的语料库,每条文本都标注了其中包含的所有极性表达。每个极性表达都标注了表达本身、目标(表达的对象)和来源(表达情感的主体)。共标注了25,453个极性表达。该数据集用于训练情感分析模型,语言为加泰罗尼亚语(ca-ES)。数据集由巴塞罗那超级计算中心创建,遵循CC BY-NC-ND 4.0许可证。

CaSSA数据集是一个包含6400条评论和论坛消息的语料库,每条文本都标注了其中包含的所有极性表达。每个极性表达都标注了表达本身、目标(表达的对象)和来源(表达情感的主体)。共标注了25,453个极性表达。该数据集用于训练情感分析模型,语言为加泰罗尼亚语(ca-ES)。数据集由巴塞罗那超级计算中心创建,遵循CC BY-NC-ND 4.0许可证。
提供机构:
projecte-aina
原始信息汇总

数据集概述

数据集名称

  • 名称: CaSSA
  • 全称: Catalan Structured Sentiment Analysis dataset

数据集详情

  • 语言: 加泰罗尼亚语 (ca-ES)
  • 许可证: Creative Commons Attribution Non-commercial No-Derivatives 4.0 International License (cc-by-nc-nd-4.0)
  • 多语言性: 单语种
  • 任务类别: 文本分类

数据集内容

  • 数据集摘要: CaSSA数据集包含6,400条评论和论坛消息,每个文本都标注了所有包含的极性表达。共有25,453个极性表达被标注。
  • 支持的任务: 用于训练情感分析模型。

数据集结构

  • 数据实例: 每个实例包含一个文本及其相关的极性表达(在"opinions"字段中)。每个极性表达包含来源、目标、极性表达、极性值和强度值。
  • 数据字段: 包括sent_id, text, opinions(包含Source, Target, Polar_expression, Polarity, Intensity)。
  • 数据分割: 数据集未进行分割。

数据集创建

  • 采集理由: 为了促进加泰罗尼亚语这种低资源语言的语言模型发展。
  • 源数据: 数据来源于GuiaCat在线指南和Racó Català论坛的消息。
  • 标注过程: 由2名标注者进行标注,如有分歧,由第3名标注者决定。所有标注者均为加泰罗尼亚语母语者。

使用数据注意事项

  • 社会影响: 希望此数据集能促进加泰罗尼亚语语言模型的发展。
  • 偏见讨论: 数据来自在线评论和公共论坛,可能包含偏见、仇恨言论和有毒内容。未采取措施减少其影响。

附加信息

  • 数据集管理者: 巴塞罗那超级计算中心的语言技术部门(LangTech)。
  • 资金支持: 由加泰罗尼亚政府数字政策和领土部门资助,作为Projecte AINA项目的一部分。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作