large-traversaal/commonsenseqa_urdu_cleaned

Name: large-traversaal/commonsenseqa_urdu_cleaned
Creator: large-traversaal
Published: 2025-12-22 18:06:11
License: 暂无描述

Hugging Face2025-12-22 更新2025-12-20 收录

下载链接：

https://hf-mirror.com/datasets/large-traversaal/commonsenseqa_urdu_cleaned

下载链接

链接失效反馈

官方服务：

资源简介：

`commonsenseqa_urdu_cleaned`是一个经过清理的乌尔都语版本的CommonsenseQA基准测试数据集，用于测试日常场景中的常识推理能力。它包含英语问题和答案选项的高质量乌尔都语翻译，旨在评估和训练多语言和乌尔都语本地语言模型在常识推理任务上的表现。数据集包含约12.1K个例子，分为训练集、验证集和测试集。每个记录包含唯一标识符、问题概念、英语问题、答案选项、乌尔都语问题和答案选项的翻译，以及正确答案。该数据集适用于评估乌尔都语和多语言语言模型的常识推理能力，训练模型学习英语和乌尔都语之间的跨语言推理，以及在低资源语言中进行多项选择题回答的基准测试。

`commonsenseqa_urdu_cleaned` is a cleaned Urdu version of the CommonsenseQA benchmark — a multiple-choice question-answering dataset that tests commonsense reasoning across diverse everyday scenarios. It provides English questions and answer choices alongside high-quality Urdu translations for both. This dataset enables evaluation and training of multilingual and Urdu-native language models on commonsense reasoning tasks. The dataset contains approximately 12.1K examples, divided into training, validation, and test sets. Each record includes a unique identifier, question concept, English question, answer choices, Urdu translations of the question and answer options, and the correct answer. The dataset is ideal for evaluating Urdu and multilingual language models on commonsense reasoning, training models to learn cross-lingual reasoning between English and Urdu, and benchmarking performance on multiple-choice question answering in a low-resource language.

提供机构：

large-traversaal

5,000+

优质数据集

54 个

任务类型

进入经典数据集