issai/kazqad-retrieval
收藏数据集卡片 for KazQAD-Retrieval
数据集描述
数据集概述
KazQAD 是一个用于开放领域问答(ODQA)和信息检索实验的哈萨克语开放领域问答数据集。该数据集包含近6,000个独特问题和近12,000个段落级别的相关性判断(子集 queries-and-passages)。问题来源包括从Natural Questions数据集翻译的项目(仅用于训练)和原始的哈萨克统一国家考试(UNT)(用于开发和测试)。
伴随的文本语料库(子集 corpus)包含超过800,000个来自哈萨克语维基百科的段落。
数据集结构
数据实例
子集 queries-and-passages 的示例:
json
{
"id": "kzh2998kzh",
"question": "Ғұндардың ру көсемдері кім болды?",
"positive_passages": [
{
"docid": "101241_28_1",
"title": "Көшпелілердегі қоғамдық қатынастар",
"text": "Хан билігі бүкіл елге қатысты жоғары саяси билік болса, ру, тайпа көлеміндегі нақты билік сол рулардан шыққан беделді ру ақсақалдарының қолында болды..."
}
],
"negative_passages": [
{
"docid": "101241_24_1",
"title": "Көшпелілердегі қоғамдық қатынастар",
"text": "Қазақ хандарының жанында ақылшысы, кеңесшілері, төбе билері, жасақтары, іс жүргізуші мемлекеттік қызметкерлері болды..."
},
{
"docid": "79445_3_1",
"title": "Ежелгі герман тайпалары және рим империясы",
"text": "...Германдық тайпалардың негізгі шаруашылық ұясы қауым болды. Қауым мүшелері топқа бөлінбей, жерді бірлесіп өңдеді..."
}
]
}
子集 corpus 的示例:
json
{
"docid": "101241_28_1",
"title": "Көшпелілердегі қоғамдық қатынастар",
"text": "Хан билігі бүкіл елге қатысты жоғары саяси билік болса, ру, тайпа көлеміндегі нақты билік сол рулардан шыққан беделді ру ақсақалдарының қолында болды..."
}
数据分割
以下表格显示了每个数据分割的查询数量(#Q)、正向段落数量(#P+)和负向段落数量(#P-):
| split | #Q | #P+ | #P- |
|---|---|---|---|
| train | 3,487 | 3,893 | 3,558 |
| validation | 548 | 769 | 229 |
| test | 1,929 | 2,718 | 653 |



