AdWeeb/kan_hope
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/AdWeeb/kan_hope
下载链接
链接失效反馈官方服务:
资源简介:
KanHope数据集是一个用于希望言论检测的代码混合卡纳达语-英语数据集。数据集包含从YouTube评论部分抓取的6,176条用户生成的评论,这些评论被手动注释为包含希望言论或不包含希望言论。数据集支持的任务是多标签分类,特别是针对德拉威语(卡纳达语-英语)的代码混合文本。数据集的结构包括文本和标签两个字段,文本字段包含卡纳达语-英语混合的评论,标签字段为0或1,分别对应非希望言论和希望言论。数据集分为训练集、验证集和测试集。
KanHope数据集是一个用于希望言论检测的代码混合卡纳达语-英语数据集。数据集包含从YouTube评论部分抓取的6,176条用户生成的评论,这些评论被手动注释为包含希望言论或不包含希望言论。数据集支持的任务是多标签分类,特别是针对德拉威语(卡纳达语-英语)的代码混合文本。数据集的结构包括文本和标签两个字段,文本字段包含卡纳达语-英语混合的评论,标签字段为0或1,分别对应非希望言论和希望言论。数据集分为训练集、验证集和测试集。
提供机构:
AdWeeb
原始信息汇总
数据集概述
数据集基本信息
- 名称: KanHope
- 语言: 多语言(英语和卡纳达语)
- 许可证: CC-BY-4.0
- 数据量: 1K<n<10K
- 来源: 原始数据
- 任务类型: 多标签文本分类
- 标签:
- 0: Not-Hope
- 1: Hope
数据集结构
- 特征:
text: 字符串类型,包含混合的卡纳达语-英语文本label: 分类标签,整数类型,0表示Not-Hope,1表示Hope
- 数据分割:
- 训练集: 4940个样本
- 测试集: 618个样本
数据集创建
- 语言创建者: 众包
- 标注创建者: 专家生成
- 数据来源: YouTube用户评论
- 标注过程: 未详细说明
- 个人和敏感信息: 未详细说明
使用数据集的考虑
- 社会影响: 未详细说明
- 偏见讨论: 未详细说明
- 其他已知限制: 未详细说明



