DDSC/angry-tweets
收藏Hugging Face2023-07-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DDSC/angry-tweets
下载链接
链接失效反馈官方服务:
资源简介:
AngryTweets数据集由丹麦的匿名Twitter数据组成,这些数据通过众包进行了情感分析标注。数据集适用于情感分析任务,包含训练集和测试集,分别有2,437条和1,047条推文。每条数据包含推文内容和情感标签,标签分为positiv、neutral和negativ。数据集由Amalie Brogaard Pauli等人创建,并遵循CC BY 4.0许可证。
The AngryTweets dataset comprises anonymized Twitter data sourced from Denmark, which was annotated for sentiment analysis via crowdsourcing. This dataset is intended for sentiment analysis tasks, and includes a training set and a test set with 2,437 and 1,047 tweets respectively. Each entry contains the tweet content and a sentiment label, with the available labels being positive, neutral, and negative. This dataset was created by Amalie Brogaard Pauli et al. and is licensed under CC BY 4.0.
提供机构:
DDSC
原始信息汇总
数据集概述
数据集基本信息
- 名称: AngryTweets
- 语言: 丹麦语 (da)
- 许可证: CC BY 4.0
- 多语言性: 单语种
- 大小: 1K<n<10K
- 来源: 原始数据
- 任务类别: 文本分类
- 任务ID: 情感分类
数据集描述
数据集总结
- 内容: 包含匿名的丹麦语Twitter数据,用于情感分析。
- 创建方式: 通过众包进行标注。
- 参考文献: Pauli, Amalie Brogaard, et al. "DaNLP: An open-source toolkit for Danish Natural Language Processing." Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa). 2021.
支持的任务和排行榜
- 任务: 情感分析
数据集结构
数据实例
- 结构: 每个实例包含一条推文及其情感标签。
数据字段
text(str): 推文内容。label(str): 情感标签,可以是 "positiv"(正面)、"neutral"(中性)或 "negativ"(负面)。
数据分割
- 分割方式: 训练集和测试集,测试集占30%,随机分层抽样。
- 数量: 训练集包含2,437条推文,测试集包含1,047条推文。
附加信息
数据集创建者
- 创建者: Amalie Brogaard Pauli, Maria Barrett, Ophélie Lacroix, Rasmus Hvingelby
- 推文匿名化: @saattrupdan
许可证信息
- 许可证: CC BY 4.0
引用信息
@inproceedings{pauli2021danlp, title={DaNLP: An open-source toolkit for Danish Natural Language Processing}, author={Pauli, Amalie Brogaard and Barrett, Maria and Lacroix, Oph{e}lie and Hvingelby, Rasmus}, booktitle={Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa)}, pages={460--466}, year={2021} }
搜集汇总
数据集介绍

构建方式
在社交媒体情感分析领域,丹麦语资源的稀缺性促使研究者构建了AngryTweets数据集。该数据集源自丹麦Twitter平台,通过众包方式对原始推文进行情感标注。数据收集后,作者对推文内容进行了匿名化处理,以保护用户隐私。构建过程中,研究团队采用分层随机抽样策略,将数据集划分为训练集与测试集,其中测试集占总样本的30%,确保了数据分布的均衡性。这一构建方法不仅体现了对数据伦理的重视,也为丹麦语情感分析任务提供了高质量的标注资源。
特点
AngryTweets数据集的核心特点在于其专注于丹麦语社交媒体文本的情感分析。数据集规模适中,包含约三千余条推文,每条数据均包含文本内容及情感标签,标签分为积极、中性与消极三类。数据经过匿名化处理,移除了用户身份信息,兼顾了研究可用性与隐私保护。此外,数据集提供了标准化的训练与测试划分,支持模型性能的可靠评估。作为丹麦自然语言处理工具包DaNLP的组成部分,该数据集填补了北欧语言情感分析资源的空白,具有重要的学术价值。
使用方法
使用AngryTweets数据集时,研究者可将其直接应用于丹麦语情感分类模型的训练与评估。数据集以结构化格式提供,包含文本字段与标签字段,便于加载至机器学习框架。用户可通过Hugging Face平台或直接下载链接获取数据,并依据提供的训练集与测试集划分进行模型开发。在具体应用中,建议结合丹麦语语言特征进行预处理,并参考原始论文中的基准方法以复现实验结果。该数据集兼容常见的情感分析任务,可用于探索跨语言情感迁移或丹麦语特定语境下的情感模式识别。
背景与挑战
背景概述
在自然语言处理领域,针对低资源语言的文本情感分析研究长期面临数据稀缺的困境。AngryTweets数据集由Amalie Brogaard Pauli等研究人员于2021年创建,作为DaNLP开源工具包的重要组成部分,旨在填补丹麦语情感分析任务的空白。该数据集通过众包方式对匿名化丹麦语推文进行情感标注,为北欧语言处理社区提供了宝贵的实验资源,推动了跨语言情感分析模型的发展与应用。
当前挑战
该数据集致力于解决丹麦语文本情感分类的领域挑战,包括处理语言特有的文化语境、俚语表达及社交媒体文本的非正式语法结构。在构建过程中,研究人员面临匿名化处理与语义保留的平衡难题,同时需克服众包标注中主观性偏差带来的标注一致性挑战,以及小规模数据集对模型泛化能力形成的制约。
常用场景
经典使用场景
在丹麦自然语言处理领域,AngryTweets数据集为情感分析任务提供了宝贵的资源。该数据集通过众包方式标注了丹麦语推文的情感极性,涵盖了积极、中性和消极三类标签。研究者通常利用这一数据集训练和评估情感分类模型,特别是在处理丹麦语这种资源相对稀缺的语言时,它成为了验证模型跨语言适应性和性能的基准工具。其经典使用场景包括构建端到端的情感分类系统,以及探索社交媒体文本中情感表达的细微差异。
解决学术问题
AngryTweets数据集有效解决了丹麦语情感分析研究中数据匮乏的核心问题。在自然语言处理领域,低资源语言往往面临标注数据不足的挑战,该数据集通过提供高质量、众包标注的丹麦语推文,为学术研究填补了空白。它使得研究者能够系统性地探究情感分类算法在丹麦语上的表现,推动了跨语言情感分析模型的发展,并为低资源语言处理提供了可复现的实验基础,促进了语言技术公平性的学术讨论。
衍生相关工作
围绕AngryTweets数据集,衍生了一系列经典研究工作,特别是在丹麦自然语言处理工具包DaNLP的开发和评估中扮演了关键角色。该数据集作为DaNLP项目的一部分,被用于基准测试多种预训练模型在丹麦语情感分析任务上的性能。相关研究进一步探索了多语言模型如mBERT或XLM-R在该数据集上的微调效果,推动了针对丹麦语的语言模型适配和优化,为后续低资源语言NLP工具的开发提供了方法论参考和实证基础。
以上内容由遇见数据集搜集并总结生成



