totormac/KannadaPromptBench

Name: totormac/KannadaPromptBench
Creator: totormac
Published: 2026-04-11 06:37:17
License: 暂无描述

Hugging Face2026-04-11 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/totormac/KannadaPromptBench

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - kn license: cc-by-4.0 task_categories: - text-classification - question-answering - summarization pretty_name: KannadaPromptBench size_categories: - n<1K tags: - kannada - low-resource - indic-languages - prompt-sensitivity --- # KannadaPromptBench A benchmark dataset for evaluating prompt strategy sensitivity in Kannada, a low-resource Dravidian language. ## Dataset Summary - **Language**: Kannada (kn) - **Tasks**: Sentiment Analysis (100), Question Answering (75), Summarization (50) - **Total**: 225 culturally grounded samples - **Inter-annotator agreement**: Cohen's κ > 0.80 ## Dataset Structure Each sample contains: `id`, `task`, `input_text`, `label`, `difficulty`, `domain`. ## Citation Please cite if you use this dataset: ```bibtex @dataset{kannadapromptbench2024, title={KannadaPromptBench}, year={2024}, url={https://huggingface.co/datasets/totormac/KannadaPromptBench} } ```

提供机构：

totormac

搜集汇总

数据集介绍

构建方式

在低资源德拉维达语系语言研究的背景下，KannadaPromptBench数据集的构建聚焦于评估提示策略的敏感性。该数据集通过精心设计，涵盖了情感分析、问答和摘要三大任务，总计225个样本。每个样本均基于卡纳达语的文化背景进行标注，确保了内容的真实性与相关性。构建过程中，研究团队严格遵循了高标准的标注流程，使得样本间的标注者一致性系数（Cohen's κ）超过了0.80，从而保证了数据的高质量与可靠性。

使用方法

使用KannadaPromptBench时，研究者可将其作为基准数据集，系统评估不同提示策略在卡纳达语任务上的表现。数据集的结构清晰，每个样本包含任务类型、输入文本、标签、难度和领域等信息，便于进行针对性的实验设计。用户可按照任务类别划分数据，分别测试模型在情感分析、问答和摘要上的敏感性。通过分析模型在不同难度和领域样本上的性能差异，能够深入理解提示工程对低资源语言处理的影响，进而优化模型设计。

背景与挑战

背景概述

在自然语言处理领域，低资源语言的研究长期面临数据稀缺的困境，卡纳达语作为德拉维达语系的重要成员，其计算语言学资源尤为匮乏。KannadaPromptBench数据集于2024年由相关研究团队构建，旨在系统评估提示策略在卡纳达语任务中的敏感性，核心研究问题聚焦于探索提示工程对低资源语言模型性能的影响。该数据集涵盖了情感分析、问答与摘要三大任务，共计225个文化根植样本，为卡纳达语的自然语言处理研究提供了关键基准，推动了低资源语言模型优化与跨语言迁移学习的发展。

当前挑战

该数据集致力于应对低资源语言提示敏感性评估的挑战，具体包括：在领域问题层面，卡纳达语复杂的形态结构与文化特定表达使得模型难以准确捕捉语义细微差别，情感分析与摘要任务需克服语境依赖性强、标注一致性维护等难题；在构建过程中，研究者面临高质量双语数据稀缺、文化背景知识融入困难以及跨任务样本平衡等挑战，同时确保高标注者间一致性（Cohen's κ > 0.80）亦增加了数据采集与验证的复杂度。

常用场景

经典使用场景

在低资源语言处理领域，KannadaPromptBench作为评估提示策略敏感性的基准数据集，其经典使用场景聚焦于测试不同提示方法在卡纳达语自然语言处理任务中的性能差异。研究者通过该数据集系统分析提示工程对情感分析、问答和摘要等任务的影响，从而优化模型在资源受限语言环境下的适应性，推动跨语言人工智能的公平发展。

解决学术问题

该数据集有效解决了低资源德拉维达语系语言在自然语言处理研究中数据稀缺与评估标准缺失的学术难题。通过提供225个文化背景丰富的标注样本，它支持对提示策略鲁棒性的量化分析，促进了跨语言模型泛化能力的研究，并为资源不平等问题提供了实证基础，对语言学与计算科学的交叉探索具有深远意义。

实际应用

在实际应用中，KannadaPromptBench可助力开发面向卡纳达语用户的智能服务系统，如本土化情感监测工具、教育辅助问答平台及新闻摘要生成器。其文化接地气的样本设计确保了技术部署时能准确理解地域语境，为印度卡纳塔克邦等地区的数字化转型提供语言技术支撑，增强人工智能的社会包容性。

数据集最近研究