Henok/amharic-qa
收藏AmQA: Amharic Question Answering Dataset
数据集详情
AmQA 数据集是一个以提示和完成格式呈现的阿姆哈拉语问答数据集。数据集包含上下文、问题和答案三元组。上下文来自阿姆哈拉语维基百科的转储文件,问题和答案对通过众包创建并使用 Haystack QA 标注工具进行标注。数据集包含 2628 个问题和答案对,来自 378 篇文档。数据集分为训练集、开发集和测试集,分别包含 1728、600 和 300 个样本。
数据集结构
数据集分为 70% 训练集、20% 测试集和 10% 开发集。数据集采用新的 JSON 格式,包含以下结构:
json { "inputs": "ከዚህ በታች በተገለጸው አውድ ተከታዩን ጥያቄ ይመልሱ፡ {context} {question}", "targets": "ከጥያቄው ጋር የሚስማማው ምላሽ {answer_text} ነው።", "inputs": "ከዚህ በታች ያለውን ዝርዝር መረጃ በመጠቀም ለሚከተለው ጥያቄ መልስ ይስጡ፡ {context} {question}", "targets": "ከጥያቄው አንጻር ትክክለኛው መልስ {answer_text} ነው።", "inputs": "ከዚህ በታች ያለውን ጽሑፍ በማጣቀስ እባክዎን ለሚከተለው መልስ ይስጡ {context} {question}", "targets": "ለጥያቄው መልስ {answer_text} ነው።", "inputs": "የተሰጠውን ጥያቄ ለመመለስ ከዚህ በታች የቀረበውን መረጃ ይመልከቱ፡ {context} {question}", "targets": "ለተጠቀሰው ጥያቄ ትክክለኛው ምላሽ {answer_text} ነው።", "inputs": "ለሚከተለው ጥያቄ ምላሽ ለመስጠት ከዚህ በታች የቀረበውን አውድ ተጠቀም፡ {context} {question}", "targets": "ለጥያቄው መልሱ {answer_text} ነው።", "inputs": "የተሰጠውን ጥያቄ ከዚህ በታች በተሰጠው አውድ መሰረት መልሱ፡ {context} {question}", "targets": "ለጥያቄው ትክክለኛው ምላሽ {answer_text} ነው።" }



