NYTK/HuSST
收藏Hugging Face2025-01-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NYTK/HuSST
下载链接
链接失效反馈官方服务:
资源简介:
HuSST数据集是匈牙利语版本的斯坦福情感树库(Stanford Sentiment Treebank),主要用于情感分类和情感评分任务。该数据集是匈牙利语言理解评估基准工具包(HuLU)的一部分。数据集通过对原始SST数据集的内容进行翻译和重新注释创建,每个句子由人工翻译并由多名注释者进行标注,最终由一名校对者确定最终标签。数据集包含训练集、验证集和测试集,每个实例包含一个唯一的ID、一个句子和一个情感标签(负面、中性或正面)。
提供机构:
NYTK
原始信息汇总
数据集概述
数据集名称
- 名称: HuSST
数据集描述
- 摘要: HuSST是匈牙利版本的Stanford Sentiment Treebank数据集,属于匈牙利语言理解评估基准套件HuLU的一部分。该数据集通过翻译和重新标注原始的SST数据集创建。
- 支持的任务:
- 情感分类
- 情感评分
- 文本评分
语言信息
- 语言: 匈牙利语(hu-HU)
数据集结构
- 数据实例: 每个实例包含一个唯一ID、一个句子及其情感标签("negative", "neutral", 或 "positive")。
- 数据字段:
- Sent_id: 实例的唯一ID
- Sent: 句子,SST数据集实例的翻译
- Label: 情感标签
- 数据分割: 数据集分为训练集、验证集和测试集。
- 训练集: 9344个实例
- 验证集: 1168个实例
- 测试集: 1168个实例
数据集创建
- 源数据: 数据是对SST数据集内容的翻译,每个句子由人工翻译并由另一标注者手动检查和进一步细化。
- 标注过程: 翻译后的句子由三名人类标注者标注,最终标签由第四位标注者(curator)根据前三位标注者的标签决定。
许可证信息
- 许可证: BSD-2-Clause
引用信息
- 引用:
- Ligeti-Nagy, N. et al. (2022) HuLU: Hungarian benchmark dataset to evaluate neural language models.
- Socher et al. (2013) Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank.



