SzegedAI/MILQA

Name: SzegedAI/MILQA
Creator: SzegedAI
Published: 2024-01-25 08:36:18
License: 暂无描述

Hugging Face2024-01-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SzegedAI/MILQA

下载链接

链接失效反馈

官方服务：

资源简介：

MILQA是一个匈牙利机器阅读理解基准数据库，特别是问答（QA）任务。该数据库基于高质量维基百科文章，包含事实性问题，且问题设计上避免了简单的词汇搜索。与SQuAD相比，MILQA引入了多项创新，如支持多个短答案、包含长答案、是/否问题、不可回答问题以及需要计算或算术操作的问题。数据集包含超过23500个问题，其中70.93%的问题在文本中有答案。标注工作由5名标注者在Pázmány Péter Catholic University的语言技术研究小组的监督下完成。

提供机构：

SzegedAI

原始信息汇总

MILQA Hungarian question-answer benchmark database

概述

MILQA 是一个匈牙利机器阅读理解，特别是问答（QA）基准数据库。该数据库主要遵循 SQuAD 2.0 的原则构建，具有以下特点：

使用高质量的维基百科文章摘录作为问题的上下文。
包含事实性（非观点性）问题。
包含文本中未回答的问题。
问题的答案（如果有）在原始文本中标注。
问题经过改写，使得答案不能通过词汇搜索找到。
问题在文本上下文中具有意义，并且可以独立存在。

创新点

与 SQuAD 相比，MILQA 引入了以下创新：

一个问题可以有多个简短答案（列表类型答案）。
除了简短答案外，还提供长答案，包含回答问题所需的所有相关情况。
包含是非题（约 10%），除了长答案外，还提供是非答案。
包含无法回答的问题（约 30%），这些问题与主题相关，并非从可回答问题中替换生成。
包含需要计数或进行算术运算才能回答的问题。
包含一些“棘手问题”，本地人可能会根据错误的默认假设从文本中读出答案。

数据集规模

该数据库目前包含超过 23500 个问题，其中 70.93% 的问题在文本中有答案。

标注指南

标注者遵循以下指南：

提出日常问题。
答案不应容易找到。
可以对某些问题进行改写。
无法回答的问题数量应为可回答问题的一半。
对于可回答问题，有 12 个选项，但不必全部使用。
不必在每种情况下都提供简短和长答案。
尽可能使用简短答案，并使其尽可能短。
只能选择完整的单词作为答案。
一个问题可以有多个简短答案（列表）。
如果答案在文本中出现多次，选择与问题上下文相关的答案。
简短和长答案，或不同问题的答案，可能在文本中重叠。
约 10% 的问题应为是非题。
对于是非题，选择一个文本段落作为答案，并点击答案以显示进一步选项。
如果答案在问题上下文中语法不正确，选择答案后点击并勾选“不同答案”。
包含“为什么...？”（原因、效果）类型的问题。
没有词序限制，不必以疑问词开始。
尽可能改写问题，使其不使用文本中的相同词汇。
问题应“自包含”，不包含仅在了解文本后才能理解的部分。
问题的顺序与答案在文本中的位置无关。
对于无法回答的问题，提出在文本中未涉及的问题。
包含需要计算或进行算术运算才能回答的问题。
对于“为什么？”类型的问题，可以提供更短或更好的答案。
对于计数问题，在给出 x 个简短答案后，在其他精确答案框中写入 x，并在框中勾选“算术”。
如果一个句子包含使下一个句子有意义的信息，且问题的简短答案在第二个句子中，两个句子都应包含在长答案中。
长答案应至少是完整的从句，最好是完整的句子或多句。
如果某个段落非常语法错误或听起来不正确，不要添加问题。
如果文本中存在事实错误或自相矛盾，不要输入与这些部分相关的问题。

数据格式

数据库以 json 数据文件形式存储，格式基于 SQuAD 2.0。包含简短和长答案的列表，每个答案可能有“modanswer”，以及特殊的“type”。问题类型“qtype”由属于该问题的答案的类型特征聚合而成。

5,000+

优质数据集

54 个

任务类型

进入经典数据集