five

projecte-aina/CaSET-catalan-stance-emotions-twitter

收藏
Hugging Face2024-10-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/CaSET-catalan-stance-emotions-twitter
下载链接
链接失效反馈
官方服务:
资源简介:
CaSET数据集是一个加泰罗尼亚语的推文语料库,包含情感、静态立场和动态立场的注释。数据集包含11k个独特句子,涉及五个有争议的话题,分为6k对句子,每对句子由父消息和回复消息组成。数据集由巴塞罗那超级计算中心创建,使用Twitter API收集数据,并由加泰罗尼亚语母语者进行注释。数据集旨在促进加泰罗尼亚语这一低资源语言的模型开发。

CaSET数据集是一个加泰罗尼亚语的推文语料库,包含情感、静态立场和动态立场的注释。数据集包含11k个独特句子,涉及五个有争议的话题,分为6k对句子,每对句子由父消息和回复消息组成。数据集由巴塞罗那超级计算中心创建,使用Twitter API收集数据,并由加泰罗尼亚语母语者进行注释。数据集旨在促进加泰罗尼亚语这一低资源语言的模型开发。
提供机构:
projecte-aina
原始信息汇总

数据集概述

数据集名称

  • 名称: CaSET
  • 全称: Catalan Stance and Emotions Dataset from Twitter

数据集创建者

  • 语言创建者: Twitter
  • 标注创建者: Barcelona Supercomputing Center

语言

  • 语言: Catalan (ca-ES)

许可证

  • 许可证: Creative Commons Attribution 4.0 (cc-by-4.0)

多语言性

  • 多语言性: 单语种

任务类别

  • 任务类别: 文本分类

数据集描述

数据集总结

  • 内容: 包含11k独特句子,涉及五个争议话题,组成6k句子对,包括父消息和回复消息。
  • 标注: 情感、静态立场和动态立场。

支持的任务和排行榜

  • 任务: 情感检测、静态立场检测、动态立场检测。

数据集结构

数据实例

  • 结构: 每个实例包含父消息和回复消息的ID、文本(需通过Twitter API获取)、话题、动态立场、静态立场和情感。

  • 示例:

    { "id_parent": "1413960970066710533", "id_reply": "1413968453690658816", "parent_text": "", "reply_text": "", "topic": "vaccines", "dynamic_stance": "Disagree", "parent_stance": "FAVOUR", "reply_stance": "AGAINST", "parent_emotion": ["distrust", "joy", "disgust"], "reply_emotion": ["distrust"] }

数据分割

  • 分割: 数据集未进行分割。

数据集创建

采集理由

  • 目的: 为低资源语言Catalan开发语言模型。

源数据

  • 收集方式: 使用Twitter API由Barcelona Supercomputing Center收集。
  • 关键词: 疫苗、租金管制、代孕妊娠、机场扩建、电视节目操纵。

标注

  • 情感标注: 多标签,包括愤怒、期待、厌恶、恐惧、喜悦、悲伤、惊奇、不信任、无情感。
  • 静态立场标注: 支持、反对、中立、不适用。
  • 动态立场标注: 同意、不同意、详细说明、查询、中立、无关、不适用。

标注过程

  • 情感: 3名标注者,使用Fleiss Kappa计算的平均内部一致性为45.38。
  • 静态立场: 2名标注者,Fleiss Kappa为82.71。
  • 动态立场: 4名标注者,Fleiss Kappa为56.51,与金标准的一致性为85.17。

标注者

  • 标注者: 所有标注者均为Catalan母语者。

使用数据集的考虑

社会影响

  • 期望贡献: 促进Catalan语言模型的开发。

偏见讨论

  • 偏见: 数据来自社交媒体,包含偏见、仇恨言论和有毒内容,未采取措施减少其影响。

其他已知限制

  • 限制: 数据需通过Twitter API下载,可能导致部分实例丢失。

附加信息

数据集管理者

  • 管理者: Language Technologies Unit at the Barcelona Supercomputing Center。

资金支持

  • 资金来源: Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya。

引用信息

  • 引用格式:

    @inproceedings{figueras-etal-2023-dynamic, title = "Dynamic Stance: Modeling Discussions by Labeling the Interactions", author = "Figueras, Blanca and Baucells, Irene and Caselli, Tommaso", editor = "Bouamor, Houda and Pino, Juan and Bali, Kalika", booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2023", month = dec, year = "2023", address = "Singapore", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.findings-emnlp.432", doi = "10.18653/v1/2023.findings-emnlp.432", pages = "6503--6515", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作