community-datasets/senti_ws
收藏Hugging Face2024-06-26 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/senti_ws
下载链接
链接失效反馈官方服务:
资源简介:
SentiWS是一个公开可用的德语资源,用于情感分析和观点挖掘等任务。它列出了带有正负极性权重的词汇及其词性标签,权重范围在[-1, 1]之间。当前版本的SentiWS包含约1,650个正面词汇和1,800个负面词汇,总计约16,000个正面和18,000个负面词形及其变体。它不仅包含明确表达情感的形容词和副词,还包含隐含情感的名词和动词。数据集支持情感评分和词性标注任务,语言为德语。
SentiWS is a publicly available German-language resource designed for tasks including sentiment analysis and opinion mining. It documents vocabulary entries paired with their positive/negative polarity weights and part-of-speech tags, where the weights fall within the range of [-1, 1]. The current version of SentiWS contains approximately 1,650 positive lexical items and 1,800 negative lexical items, with a total of around 16,000 positive and 18,000 negative word forms and their variants. It covers not only adjectives and adverbs that explicitly express emotion, but also nouns and verbs that carry implicit sentiment. This dataset supports sentiment scoring and part-of-speech tagging tasks, and is dedicated to the German language.
提供机构:
community-datasets
原始信息汇总
数据集卡片 for SentiWS
数据集描述
数据集摘要
SentiWS,全称为SentimentWortschatz,是一个公开可用的德语资源,用于情感分析、意见挖掘等。它列出了在[-1; 1]区间内加权的正面和负面极性词,以及它们的部分语音标签,如果适用,还包括它们的词形变化。当前版本的SentiWS包含约1,650个正面词和1,800个负面词,总计约16,000个正面词形和18,000个负面词形,包括它们的词形变化。它不仅包含明确表达情感的形容词和副词,还包含隐含情感的名词和动词。
支持的任务和排行榜
- 情感评分 (Sentiment-Scoring)
- 词性标注 (Pos-Tagging)
语言
德语
数据集结构
数据实例
对于词性标注 (pos-tagging): json { "word": "Abbau", "pos_tag": 0 }
对于情感评分 (sentiment-scoring): json { "word": "Abbau", "sentiment-score": -0.058 }
数据字段
SentiWS 是 UTF8 编码的文本。
对于词性标注 (pos-tagging):
word: 一个字符串,表示单词。pos_tag: 一个整数,表示单词的词性标签。
对于情感评分 (sentiment-scoring):
word: 一个字符串,表示单词。sentiment-score: 一个浮点数,表示单词的情感评分,范围在 -1 到 1 之间。
词性标签包括 ["NN", "VVINF", "ADJX", "ADV"],分别对应 ["名词", "动词", "形容词", "副词"],正面和负面极性词的权重在[-1, 1]区间内。
数据分割
训练集: 包含1,650个负面词和1,818个正面词。
数据集创建
数据集信息
-
config_name: pos-tagging
- 特征:
word: 字符串类型。pos-tag:- 类别标签:
- 名称:
- 0: NN
- 1: VVINF
- 2: ADJX
- 3: ADV
- 名称:
- 类别标签:
- 分割:
train:- 字节数: 75530
- 样本数: 3471
- 下载大小: 97748
- 数据集大小: 75530
- 特征:
-
config_name: sentiment-scoring
- 特征:
word: 字符串类型。sentiment-score: 浮点数类型。
- 分割:
train:- 字节数: 61646
- 样本数: 3471
- 下载大小: 97748
- 数据集大小: 61646
- 特征:
搜集汇总
数据集介绍

构建方式
在德语情感分析领域,SentiWS数据集的构建体现了语言学与计算科学的深度融合。该资源通过专家标注与机器生成相结合的方式,系统性地收集了德语中具有情感倾向的词汇。构建过程以语言学理论为基础,从大规模语料库中筛选出承载情感极性的词汇单元,并采用人工校验机制确保标注质量。数据集涵盖名词、动词、形容词和副词四大词类,每个词汇均被赋予精确的情感分值,其构建方法论为德语情感词典的标准化奠定了重要基础。
特点
SentiWS的显著特征在于其多维度的语言学标注体系。数据集不仅提供词汇的情感极性强度量化分值,还同步标注了词性分类信息,形成情感与语法结构的双重表征。词汇覆盖范围突破传统情感词典的局限,既包含直接表达情感倾向的形容词与副词,也收录了隐含情感语义的名词和动词变体。数据结构的精巧设计支持情感分析与词性标注的双重任务,其分层标注体系为德语情感计算研究提供了丰富的语言学特征维度。
使用方法
在自然语言处理实践中,SentiWS可作为德语情感分析任务的核心词典资源。研究者可通过加载数据集的两个独立配置模块,分别获取词性标注标签与情感强度分值。应用时需注意德语词汇的形态变化特性,建议结合词干提取技术处理词汇变体。该数据集适用于情感词典构建、文本情感强度计算等任务,其标准化输出格式可直接集成到机器学习流水线中,为德语文本情感分析模型提供可靠的基础特征。
背景与挑战
背景概述
在情感计算与自然语言处理领域,德语资源相较于英语显得相对匮乏,SentiWS(SentimentWortschatz)数据集的创建正是为了弥补这一空白。该数据集由Remus、Quasthoff和Heyer等学者于2010年发布,其核心研究问题在于构建一个系统性的德语情感词汇资源,支持情感分析与观点挖掘任务。SentiWS不仅收录了形容词和副词等显性情感词汇,还涵盖了名词和动词等隐性情感表达,通过赋予每个词汇在[-1, 1]区间内的情感权重及词性标注,为德语文本的情感极性识别提供了重要基础。这一资源的出现显著促进了德语自然语言处理研究的发展,尤其在情感词典构建与语义分析方面产生了深远影响。
当前挑战
SentiWS数据集所解决的核心领域问题是德语情感分析中的词汇级情感评分与词性标注,其挑战在于德语语言的复杂形态变化,如丰富的屈折形式,导致情感词汇的覆盖范围与权重标注需要极高的语言学精确性。在构建过程中,研究人员面临的主要挑战包括从大规模语料库中自动提取情感词汇并人工验证其极性,同时需平衡词汇的显性与隐性情感表达,确保标注的一致性与可靠性。此外,数据集的规模相对有限,仅包含约1,650个正面和1,800个负面词汇基础形式,虽通过屈折变化扩展至数万词形,但仍可能无法全面捕捉德语中多样化的情感表达,尤其在领域特定或新兴词汇方面存在覆盖不足的风险。
常用场景
经典使用场景
在德语自然语言处理领域,SentiWS数据集常被用于情感分析任务的基础资源构建。该数据集通过提供带有情感极性权重的词汇及其词性标注,为研究者构建情感词典或训练情感分类模型提供了核心素材。其经典应用场景包括文本情感倾向性计算,例如在社交媒体评论或产品评价中,利用词汇的情感得分进行加权求和,从而量化整体文本的情感极性。
解决学术问题
SentiWS数据集有效解决了德语情感分析研究中情感词汇资源匮乏的学术难题。它通过提供精确的情感权重和词性信息,支持了细粒度情感分析模型的开发,如基于词汇的情感强度计算和情感极性消歧。该数据集的构建促进了德语情感计算领域的标准化进程,为后续研究提供了可复现的基准,推动了跨语言情感分析技术的发展。
衍生相关工作
基于SentiWS数据集,学术界衍生出多项经典研究工作。例如,有研究将其扩展为上下文敏感的情感词典,以应对词汇情感随语境变化的问题;另有工作结合深度学习模型,利用SentiWS作为先验知识提升情感分类性能。这些衍生成果不仅丰富了德语情感分析的方法体系,也为多语言情感资源构建提供了参考范式。
以上内容由遇见数据集搜集并总结生成



