community-datasets/catalonia_independence
收藏Hugging Face2024-01-16 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/catalonia_independence
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含西班牙语和加泰罗尼亚语的语料库,用于自动立场检测。数据收集自2019年2月和3月在巴塞罗那发布的推文,以及2018年9月在加泰罗尼亚的Terrassa镇发布的推文。每个语料库都标注了三个类别:反对(AGAINST)、支持(FAVOR)和中性(NEUTRAL),这些类别表达了对加泰罗尼亚独立目标的立场。数据集的结构包括训练集、测试集和验证集,每个集都包含推文的ID、推文内容和标签。
This dataset contains Spanish and Catalan corpora for automatic stance detection. The data was collected from tweets posted in Barcelona in February and March 2019, as well as tweets posted in the town of Terrassa, Catalonia, in September 2018. Each corpus is annotated with three categories: AGAINST, FAVOR, and NEUTRAL, which express stances towards the goal of Catalan independence. The dataset structure includes training, test, and validation sets, each of which contains the tweet ID, tweet content, and label.
提供机构:
community-datasets
原始信息汇总
数据集概述
基本信息
- 数据集名称: Catalonia Independence Corpus
- 语言: 加泰罗尼亚语 (ca) 和 西班牙语 (es)
- 许可证: CC BY-NC-SA 4.0
- 多语言性: 单语种
- 数据量: 10K<n<100K
- 源数据: 原始数据
- 任务类别: 文本分类
- 标签: stance-detection
数据集配置
-
加泰罗尼亚语配置
- 特征:
id_str: 字符串TWEET: 字符串LABEL: 类别标签 (AGAINST, FAVOR, NEUTRAL)
- 数据分割:
- 训练集: 6028 条数据, 1406242 字节
- 测试集: 2010 条数据, 469196 字节
- 验证集: 2010 条数据, 473385 字节
- 下载大小: 1638682 字节
- 数据集大小: 2348823 字节
- 特征:
-
西班牙语配置
- 特征:
id_str: 字符串TWEET: 字符串LABEL: 类别标签 (AGAINST, FAVOR, NEUTRAL)
- 数据分割:
- 训练集: 6046 条数据, 1507380 字节
- 测试集: 2016 条数据, 501775 字节
- 验证集: 2015 条数据, 505084 字节
- 下载大小: 1760636 字节
- 数据集大小: 2514239 字节
- 特征:
数据集描述
该数据集包含两个语料库,分别是西班牙语和加泰罗尼亚语,用于自动立场检测。数据收集于2019年2月和3月的12天期间,以及2018年9月,来自巴塞罗那和塔拉戈纳的推文。每个语料库都标注了三个类别:AGAINST、FAVOR和NEUTRAL,表示对加泰罗尼亚独立目标的立场。



