five

NYTK/HuSST

收藏
Hugging Face2025-01-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NYTK/HuSST
下载链接
链接失效反馈
官方服务:
资源简介:
HuSST数据集是匈牙利语版本的斯坦福情感树库(Stanford Sentiment Treebank),主要用于情感分类和情感评分任务。该数据集是匈牙利语言理解评估基准工具包(HuLU)的一部分。数据集通过对原始SST数据集的内容进行翻译和重新注释创建,每个句子由人工翻译并由多名注释者进行标注,最终由一名校对者确定最终标签。数据集包含训练集、验证集和测试集,每个实例包含一个唯一的ID、一个句子和一个情感标签(负面、中性或正面)。
提供机构:
NYTK
原始信息汇总

数据集概述

数据集名称

  • 名称: HuSST

数据集描述

  • 摘要: HuSST是匈牙利版本的Stanford Sentiment Treebank数据集,属于匈牙利语言理解评估基准套件HuLU的一部分。该数据集通过翻译和重新标注原始的SST数据集创建。
  • 支持的任务:
    • 情感分类
    • 情感评分
    • 文本评分

语言信息

  • 语言: 匈牙利语(hu-HU)

数据集结构

  • 数据实例: 每个实例包含一个唯一ID、一个句子及其情感标签("negative", "neutral", 或 "positive")。
  • 数据字段:
    • Sent_id: 实例的唯一ID
    • Sent: 句子,SST数据集实例的翻译
    • Label: 情感标签
  • 数据分割: 数据集分为训练集、验证集和测试集。
    • 训练集: 9344个实例
    • 验证集: 1168个实例
    • 测试集: 1168个实例

数据集创建

  • 源数据: 数据是对SST数据集内容的翻译,每个句子由人工翻译并由另一标注者手动检查和进一步细化。
  • 标注过程: 翻译后的句子由三名人类标注者标注,最终标签由第四位标注者(curator)根据前三位标注者的标签决定。

许可证信息

  • 许可证: BSD-2-Clause

引用信息

  • 引用:
    • Ligeti-Nagy, N. et al. (2022) HuLU: Hungarian benchmark dataset to evaluate neural language models.
    • Socher et al. (2013) Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank.
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作