five

AdWeeb/kan_hope

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/AdWeeb/kan_hope
下载链接
链接失效反馈
官方服务:
资源简介:
KanHope数据集是一个用于希望言论检测的代码混合卡纳达语-英语数据集。数据集包含从YouTube评论部分抓取的6,176条用户生成的评论,这些评论被手动注释为包含希望言论或不包含希望言论。数据集支持的任务是多标签分类,特别是针对德拉威语(卡纳达语-英语)的代码混合文本。数据集的结构包括文本和标签两个字段,文本字段包含卡纳达语-英语混合的评论,标签字段为0或1,分别对应非希望言论和希望言论。数据集分为训练集、验证集和测试集。

KanHope数据集是一个用于希望言论检测的代码混合卡纳达语-英语数据集。数据集包含从YouTube评论部分抓取的6,176条用户生成的评论,这些评论被手动注释为包含希望言论或不包含希望言论。数据集支持的任务是多标签分类,特别是针对德拉威语(卡纳达语-英语)的代码混合文本。数据集的结构包括文本和标签两个字段,文本字段包含卡纳达语-英语混合的评论,标签字段为0或1,分别对应非希望言论和希望言论。数据集分为训练集、验证集和测试集。
提供机构:
AdWeeb
原始信息汇总

数据集概述

数据集基本信息

  • 名称: KanHope
  • 语言: 多语言(英语和卡纳达语)
  • 许可证: CC-BY-4.0
  • 数据量: 1K<n<10K
  • 来源: 原始数据
  • 任务类型: 多标签文本分类
  • 标签:
    • 0: Not-Hope
    • 1: Hope

数据集结构

  • 特征:
    • text: 字符串类型,包含混合的卡纳达语-英语文本
    • label: 分类标签,整数类型,0表示Not-Hope,1表示Hope
  • 数据分割:
    • 训练集: 4940个样本
    • 测试集: 618个样本

数据集创建

  • 语言创建者: 众包
  • 标注创建者: 专家生成
  • 数据来源: YouTube用户评论
  • 标注过程: 未详细说明
  • 个人和敏感信息: 未详细说明

使用数据集的考虑

  • 社会影响: 未详细说明
  • 偏见讨论: 未详细说明
  • 其他已知限制: 未详细说明
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作