five

Henok/amharic-qa

收藏
Hugging Face2023-12-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Henok/amharic-qa
下载链接
链接失效反馈
官方服务:
资源简介:
AmQA是一个阿姆哈拉语的问答数据集,采用提示和完成格式。数据集包含从阿姆哈拉语维基百科中收集的文章,并通过众包创建了问题-答案对,使用了Haystack QA注释工具进行标注。数据集共包含2628个问题-答案对,来自378篇文档。数据集被分为训练集(1728个)、开发集(600个)和测试集(300个)。

AmQA is an Amharic question and answer dataset containing context, question, and answer triplets. The contexts are sourced from the Amharic Wikipedia dump, and the question-answer pairs are created through crowdsourcing and annotated using the Haystack QA annotation tool. The dataset includes 2628 question and answer pairs from 378 documents, split into train, dev, and test sets in a ratio of 70%, 20%, and 10% respectively. The dataset is structured in a new JSON format with inputs and targets fields for training question answering systems.
提供机构:
Henok
原始信息汇总

AmQA: Amharic Question Answering Dataset

数据集详情

AmQA 数据集是一个以提示和完成格式呈现的阿姆哈拉语问答数据集。数据集包含上下文、问题和答案三元组。上下文来自阿姆哈拉语维基百科的转储文件,问题和答案对通过众包创建并使用 Haystack QA 标注工具进行标注。数据集包含 2628 个问题和答案对,来自 378 篇文档。数据集分为训练集、开发集和测试集,分别包含 1728、600 和 300 个样本。

数据集结构

数据集分为 70% 训练集、20% 测试集和 10% 开发集。数据集采用新的 JSON 格式,包含以下结构:

json { "inputs": "ከዚህ በታች በተገለጸው አውድ ተከታዩን ጥያቄ ይመልሱ፡ {context} {question}", "targets": "ከጥያቄው ጋር የሚስማማው ምላሽ {answer_text} ነው።", "inputs": "ከዚህ በታች ያለውን ዝርዝር መረጃ በመጠቀም ለሚከተለው ጥያቄ መልስ ይስጡ፡ {context} {question}", "targets": "ከጥያቄው አንጻር ትክክለኛው መልስ {answer_text} ነው።", "inputs": "ከዚህ በታች ያለውን ጽሑፍ በማጣቀስ እባክዎን ለሚከተለው መልስ ይስጡ {context} {question}", "targets": "ለጥያቄው መልስ {answer_text} ነው።", "inputs": "የተሰጠውን ጥያቄ ለመመለስ ከዚህ በታች የቀረበውን መረጃ ይመልከቱ፡ {context} {question}", "targets": "ለተጠቀሰው ጥያቄ ትክክለኛው ምላሽ {answer_text} ነው።", "inputs": "ለሚከተለው ጥያቄ ምላሽ ለመስጠት ከዚህ በታች የቀረበውን አውድ ተጠቀም፡ {context} {question}", "targets": "ለጥያቄው መልሱ {answer_text} ነው።", "inputs": "የተሰጠውን ጥያቄ ከዚህ በታች በተሰጠው አውድ መሰረት መልሱ፡ {context} {question}", "targets": "ለጥያቄው ትክክለኛው ምላሽ {answer_text} ነው።" }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作