Alienmaster/SB10k|情感分析数据集|德语单语种数据集
收藏hugging_face2024-03-13 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Alienmaster/SB10k
下载链接
链接失效反馈资源简介:
SB10k数据集是一个用于德语情感分析的Twitter语料库和基准资源。数据集包含ID、情感、文本、标准化文本、词性标签、依存标签和附加注释等列。数据集分为训练集、测试集和开发集,分别存储在train.tsv、test.tsv和dev.tsv文件中。数据集的快照由Oliver Guhr制作,原始数据来源于SB10k数据集。
SB10k数据集是一个用于德语情感分析的Twitter语料库和基准资源。数据集包含ID、情感、文本、标准化文本、词性标签、依存标签和附加注释等列。数据集分为训练集、测试集和开发集,分别存储在train.tsv、test.tsv和dev.tsv文件中。数据集的快照由Oliver Guhr制作,原始数据来源于SB10k数据集。
提供机构:
Alienmaster
原始信息汇总
数据集概述
基本信息
- 语言: 德语
- 多语言性: 单语种
- 许可证: CC BY 4.0
- 名称: SB10k
- 任务类别: 文本分类
- 标签: 情感分析
- 数据规模: 1K<n<10K
配置详情
- 配置名称: default
- 分隔符: 制表符 (
) - 列名: ["ID", "Sentiment", "Text", "Normalized", "POS-Tags", "Dependency Labels", "additional Annotations"]
- 数据文件:
- 训练集:
train.tsv - 测试集:
test.tsv - 开发集:
dev.tsv
- 训练集:
来源
- 数据集来源于SB10k Dataset,由Oliver Guhr制作快照。
引用信息
- 论文: A Twitter Corpus and Benchmark Resources for German Sentiment Analysis
- 作者: Mark Cieliebak, Jan Milan Deriu, Dominic Egger, Fatih Uzdilli
- 会议: 5th International Workshop on Natural Language Processing for Social Media, Boston MA, USA, 11 December 2017
- 组织: Association for Computational Linguistics



