five

senti-anno

收藏
Hugging Face2024-11-30 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/stefan-it/senti-anno
下载链接
链接失效反馈
官方服务:
资源简介:
SentiAnno数据集是一个情感标注的奥地利历史报纸语料库,包含19世纪两份期刊中的1005个句子,分为正面、负面、中性和混合四个情感类别。数据集被分为训练集(741个样本)、开发集(93个样本)和测试集(95个样本),比例为80/10/10。
创建时间:
2024-11-30
原始信息汇总

SentiAnno: 奥地利历史报纸情感标注语料库

数据集概述

  • 名称: SentiAnno
  • 语言: 德语
  • 标签: 历史, 报纸
  • 描述: 该数据集包含奥地利历史报纸文本的情感标注,填补了数字人文领域自然语言处理标注语料库的空白。三个标注者将来自两份19世纪期刊的1005个句子分为四个情感类别:正面、负面、中性、混合。标注者为语言学和数字人文领域的硕士和博士生,被视为半专家,并接受了大量培训。

数据集统计

  • 数据分割: 80/10/10
    • 训练集: 741个样本
    • 开发集: 93个样本
    • 测试集: 95个样本
  • 标注类别: 正面, 负面, 中性, 混合

数据集使用

  • 示例: 提供了一个使用Flair库加载和处理该数据集的示例笔记本。

许可证

  • 状态: 未知
搜集汇总
数据集介绍
main_image_url
构建方式
SentiAnno数据集的构建基于对奥地利历史报纸文本的情感标注,旨在填补数字人文领域中情感标注语料库的空白。研究团队从两份19世纪的期刊中选取了1005个句子,由三位语言学和数字人文领域的硕士及博士生进行标注。这些标注者经过系统的培训,被视为半专家,他们将句子分为四类情感:正面、负面、中性及混合。数据集的划分遵循80/10/10的比例,分别用于训练、开发和测试,确保了数据集的多样性和实用性。
特点
SentiAnno数据集的显著特点在于其专注于历史文本的情感分析,这在自然语言处理领域中较为罕见。数据集包含了四种情感类别,涵盖了广泛的情感表达,适用于多种情感分析任务。此外,数据集的标注者均为语言学和数字人文领域的专业人士,确保了标注质量的高标准。数据集的结构化划分进一步增强了其在模型训练和评估中的应用价值。
使用方法
SentiAnno数据集可用于训练和评估情感分析模型,特别适用于处理历史文本的情感分类任务。使用者可以通过提供的示例笔记本,利用Flair库轻松加载和处理数据集。数据集的训练、开发和测试划分使得用户能够在不同的阶段对模型进行调整和验证,从而提高模型的泛化能力和准确性。此外,数据集的多样性使其适用于多种自然语言处理任务,如情感分析、文本分类等。
背景与挑战
背景概述
SentiAnno数据集由Lucija Krušic等人于2024年推出,旨在填补数字人文领域中奥地利历史报纸情感标注语料库的空白。该数据集基于19世纪的两份期刊,包含了1005个句子,并由三位语言学和数字人文领域的硕士及博士生进行情感分类标注,分为正面、负面、中性及混合四种情感类别。这一研究不仅为历史文本的情感分析提供了宝贵的资源,还为自然语言处理在数字人文领域的应用奠定了基础。
当前挑战
SentiAnno数据集的构建面临多重挑战。首先,历史文本的语言风格与现代语言存在显著差异,增加了情感标注的复杂性。其次,三位标注者虽为半专家,但仍需接受大量培训以确保标注的一致性和准确性。此外,数据集的分割和标注过程中,如何平衡各类情感类别的分布,以及确保数据集的多样性和代表性,也是构建过程中需要克服的难题。
常用场景
经典使用场景
SentiAnno数据集在情感分析领域展现了其经典应用场景,尤其是在历史文本的情感分类任务中。通过将19世纪奥地利报纸中的句子分类为正面、负面、中性或混合情感,该数据集为研究者提供了一个独特的资源,用以探索历史文献中的情感表达。这种分类不仅有助于理解历史文本的情感倾向,还能为自然语言处理技术在数字人文领域的应用提供宝贵的训练数据。
解决学术问题
SentiAnno数据集填补了历史文本情感标注的空白,解决了在数字人文领域中缺乏情感标注语料库的学术问题。通过提供19世纪奥地利报纸的情感标注数据,该数据集为研究者提供了一个标准化的情感分析基准,促进了历史文本情感分析技术的发展。这对于推动自然语言处理在历史研究中的应用具有重要意义,同时也为跨学科研究提供了新的视角和方法。
衍生相关工作
SentiAnno数据集的发布激发了一系列相关研究工作,尤其是在情感分析和数字人文领域。例如,研究者们利用该数据集开发了新的情感分类模型,并探索了历史文本情感分析的新方法。此外,该数据集还促进了跨学科合作,吸引了语言学、历史学和计算机科学等领域的研究者共同探讨如何更好地利用自然语言处理技术来分析历史文献。这些衍生工作不仅扩展了数据集的应用范围,还推动了情感分析技术在历史研究中的深入应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作