projecte-aina/CaSSA-catalan-structured-sentiment-analysis
收藏Hugging Face2024-10-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/CaSSA-catalan-structured-sentiment-analysis
下载链接
链接失效反馈官方服务:
资源简介:
CaSSA数据集是一个包含6400条评论和论坛消息的语料库,每条文本都标注了其中包含的所有极性表达。每个极性表达都标注了表达本身、目标(表达的对象)和来源(表达情感的主体)。共标注了25,453个极性表达。该数据集用于训练情感分析模型,语言为加泰罗尼亚语(ca-ES)。数据集由巴塞罗那超级计算中心创建,遵循CC BY-NC-ND 4.0许可证。
CaSSA数据集是一个包含6400条评论和论坛消息的语料库,每条文本都标注了其中包含的所有极性表达。每个极性表达都标注了表达本身、目标(表达的对象)和来源(表达情感的主体)。共标注了25,453个极性表达。该数据集用于训练情感分析模型,语言为加泰罗尼亚语(ca-ES)。数据集由巴塞罗那超级计算中心创建,遵循CC BY-NC-ND 4.0许可证。
提供机构:
projecte-aina
原始信息汇总
数据集概述
数据集名称
- 名称: CaSSA
- 全称: Catalan Structured Sentiment Analysis dataset
数据集详情
- 语言: 加泰罗尼亚语 (
ca-ES) - 许可证: Creative Commons Attribution Non-commercial No-Derivatives 4.0 International License (cc-by-nc-nd-4.0)
- 多语言性: 单语种
- 任务类别: 文本分类
数据集内容
- 数据集摘要: CaSSA数据集包含6,400条评论和论坛消息,每个文本都标注了所有包含的极性表达。共有25,453个极性表达被标注。
- 支持的任务: 用于训练情感分析模型。
数据集结构
- 数据实例: 每个实例包含一个文本及其相关的极性表达(在"opinions"字段中)。每个极性表达包含来源、目标、极性表达、极性值和强度值。
- 数据字段: 包括sent_id, text, opinions(包含Source, Target, Polar_expression, Polarity, Intensity)。
- 数据分割: 数据集未进行分割。
数据集创建
- 采集理由: 为了促进加泰罗尼亚语这种低资源语言的语言模型发展。
- 源数据: 数据来源于GuiaCat在线指南和Racó Català论坛的消息。
- 标注过程: 由2名标注者进行标注,如有分歧,由第3名标注者决定。所有标注者均为加泰罗尼亚语母语者。
使用数据注意事项
- 社会影响: 希望此数据集能促进加泰罗尼亚语语言模型的发展。
- 偏见讨论: 数据来自在线评论和公共论坛,可能包含偏见、仇恨言论和有毒内容。未采取措施减少其影响。
附加信息
- 数据集管理者: 巴塞罗那超级计算中心的语言技术部门(LangTech)。
- 资金支持: 由加泰罗尼亚政府数字政策和领土部门资助,作为Projecte AINA项目的一部分。



