projecte-aina/CaSET-catalan-stance-emotions-twitter
收藏数据集概述
数据集名称
- 名称: CaSET
- 全称: Catalan Stance and Emotions Dataset from Twitter
数据集创建者
- 语言创建者: Twitter
- 标注创建者: Barcelona Supercomputing Center
语言
- 语言: Catalan (
ca-ES)
许可证
- 许可证: Creative Commons Attribution 4.0 (cc-by-4.0)
多语言性
- 多语言性: 单语种
任务类别
- 任务类别: 文本分类
数据集描述
数据集总结
- 内容: 包含11k独特句子,涉及五个争议话题,组成6k句子对,包括父消息和回复消息。
- 标注: 情感、静态立场和动态立场。
支持的任务和排行榜
- 任务: 情感检测、静态立场检测、动态立场检测。
数据集结构
数据实例
-
结构: 每个实例包含父消息和回复消息的ID、文本(需通过Twitter API获取)、话题、动态立场、静态立场和情感。
-
示例:
{ "id_parent": "1413960970066710533", "id_reply": "1413968453690658816", "parent_text": "", "reply_text": "", "topic": "vaccines", "dynamic_stance": "Disagree", "parent_stance": "FAVOUR", "reply_stance": "AGAINST", "parent_emotion": ["distrust", "joy", "disgust"], "reply_emotion": ["distrust"] }
数据分割
- 分割: 数据集未进行分割。
数据集创建
采集理由
- 目的: 为低资源语言Catalan开发语言模型。
源数据
- 收集方式: 使用Twitter API由Barcelona Supercomputing Center收集。
- 关键词: 疫苗、租金管制、代孕妊娠、机场扩建、电视节目操纵。
标注
- 情感标注: 多标签,包括愤怒、期待、厌恶、恐惧、喜悦、悲伤、惊奇、不信任、无情感。
- 静态立场标注: 支持、反对、中立、不适用。
- 动态立场标注: 同意、不同意、详细说明、查询、中立、无关、不适用。
标注过程
- 情感: 3名标注者,使用Fleiss Kappa计算的平均内部一致性为45.38。
- 静态立场: 2名标注者,Fleiss Kappa为82.71。
- 动态立场: 4名标注者,Fleiss Kappa为56.51,与金标准的一致性为85.17。
标注者
- 标注者: 所有标注者均为Catalan母语者。
使用数据集的考虑
社会影响
- 期望贡献: 促进Catalan语言模型的开发。
偏见讨论
- 偏见: 数据来自社交媒体,包含偏见、仇恨言论和有毒内容,未采取措施减少其影响。
其他已知限制
- 限制: 数据需通过Twitter API下载,可能导致部分实例丢失。
附加信息
数据集管理者
- 管理者: Language Technologies Unit at the Barcelona Supercomputing Center。
资金支持
- 资金来源: Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya。
引用信息
-
引用格式:
@inproceedings{figueras-etal-2023-dynamic, title = "Dynamic Stance: Modeling Discussions by Labeling the Interactions", author = "Figueras, Blanca and Baucells, Irene and Caselli, Tommaso", editor = "Bouamor, Houda and Pino, Juan and Bali, Kalika", booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2023", month = dec, year = "2023", address = "Singapore", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.findings-emnlp.432", doi = "10.18653/v1/2023.findings-emnlp.432", pages = "6503--6515", }



