five

issai/kazqad-retrieval

收藏
Hugging Face2024-07-05 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/issai/kazqad-retrieval
下载链接
链接失效反馈
官方服务:
资源简介:
KazQAD是一个哈萨克语的开放域问答数据集,可用于阅读理解、全开放域问答(ODQA)以及信息检索实验。该数据集包含近6,000个独特问题和近12,000个段落级别的相关性判断。问题来源于Natural Questions数据集的翻译项目和哈萨克斯坦统一国家考试(UNT)的原始问题。数据集还包括超过800,000个来自哈萨克维基百科的段落。数据分为训练集、验证集和测试集,每个集包含不同数量的查询、正例段落和负例段落。
提供机构:
issai
原始信息汇总

数据集卡片 for KazQAD-Retrieval

数据集描述

数据集概述

KazQAD 是一个用于开放领域问答(ODQA)和信息检索实验的哈萨克语开放领域问答数据集。该数据集包含近6,000个独特问题和近12,000个段落级别的相关性判断(子集 queries-and-passages)。问题来源包括从Natural Questions数据集翻译的项目(仅用于训练)和原始的哈萨克统一国家考试(UNT)(用于开发和测试)。

伴随的文本语料库(子集 corpus)包含超过800,000个来自哈萨克语维基百科的段落。

数据集结构

数据实例

子集 queries-and-passages 的示例: json { "id": "kzh2998kzh", "question": "Ғұндардың ру көсемдері кім болды?", "positive_passages": [ { "docid": "101241_28_1", "title": "Көшпелілердегі қоғамдық қатынастар", "text": "Хан билігі бүкіл елге қатысты жоғары саяси билік болса, ру, тайпа көлеміндегі нақты билік сол рулардан шыққан беделді ру ақсақалдарының қолында болды..." } ], "negative_passages": [ { "docid": "101241_24_1", "title": "Көшпелілердегі қоғамдық қатынастар", "text": "Қазақ хандарының жанында ақылшысы, кеңесшілері, төбе билері, жасақтары, іс жүргізуші мемлекеттік қызметкерлері болды..." }, { "docid": "79445_3_1", "title": "Ежелгі герман тайпалары және рим империясы", "text": "...Германдық тайпалардың негізгі шаруашылық ұясы қауым болды. Қауым мүшелері топқа бөлінбей, жерді бірлесіп өңдеді..." } ] }

子集 corpus 的示例: json { "docid": "101241_28_1", "title": "Көшпелілердегі қоғамдық қатынастар", "text": "Хан билігі бүкіл елге қатысты жоғары саяси билік болса, ру, тайпа көлеміндегі нақты билік сол рулардан шыққан беделді ру ақсақалдарының қолында болды..." }

数据分割

以下表格显示了每个数据分割的查询数量(#Q)、正向段落数量(#P+)和负向段落数量(#P-):

split #Q #P+ #P-
train 3,487 3,893 3,558
validation 548 769 229
test 1,929 2,718 653
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作