five

SzegedAI/MILQA

收藏
Hugging Face2024-01-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SzegedAI/MILQA
下载链接
链接失效反馈
官方服务:
资源简介:
MILQA是一个匈牙利机器阅读理解基准数据库,特别是问答(QA)任务。该数据库基于高质量维基百科文章,包含事实性问题,且问题设计上避免了简单的词汇搜索。与SQuAD相比,MILQA引入了多项创新,如支持多个短答案、包含长答案、是/否问题、不可回答问题以及需要计算或算术操作的问题。数据集包含超过23500个问题,其中70.93%的问题在文本中有答案。标注工作由5名标注者在Pázmány Péter Catholic University的语言技术研究小组的监督下完成。

MILQA是一个匈牙利机器阅读理解基准数据库,特别是问答(QA)任务。该数据库基于高质量维基百科文章,包含事实性问题,且问题设计上避免了简单的词汇搜索。与SQuAD相比,MILQA引入了多项创新,如支持多个短答案、包含长答案、是/否问题、不可回答问题以及需要计算或算术操作的问题。数据集包含超过23500个问题,其中70.93%的问题在文本中有答案。标注工作由5名标注者在Pázmány Péter Catholic University的语言技术研究小组的监督下完成。
提供机构:
SzegedAI
原始信息汇总

MILQA Hungarian question-answer benchmark database

概述

MILQA 是一个匈牙利机器阅读理解,特别是问答(QA)基准数据库。该数据库主要遵循 SQuAD 2.0 的原则构建,具有以下特点:

  • 使用高质量的维基百科文章摘录作为问题的上下文。
  • 包含事实性(非观点性)问题。
  • 包含文本中未回答的问题。
  • 问题的答案(如果有)在原始文本中标注。
  • 问题经过改写,使得答案不能通过词汇搜索找到。
  • 问题在文本上下文中具有意义,并且可以独立存在。

创新点

与 SQuAD 相比,MILQA 引入了以下创新:

  • 一个问题可以有多个简短答案(列表类型答案)。
  • 除了简短答案外,还提供长答案,包含回答问题所需的所有相关情况。
  • 包含是非题(约 10%),除了长答案外,还提供是非答案。
  • 包含无法回答的问题(约 30%),这些问题与主题相关,并非从可回答问题中替换生成。
  • 包含需要计数或进行算术运算才能回答的问题。
  • 包含一些“棘手问题”,本地人可能会根据错误的默认假设从文本中读出答案。

数据集规模

该数据库目前包含超过 23500 个问题,其中 70.93% 的问题在文本中有答案。

标注指南

标注者遵循以下指南:

  • 提出日常问题。
  • 答案不应容易找到。
  • 可以对某些问题进行改写。
  • 无法回答的问题数量应为可回答问题的一半。
  • 对于可回答问题,有 12 个选项,但不必全部使用。
  • 不必在每种情况下都提供简短和长答案。
  • 尽可能使用简短答案,并使其尽可能短。
  • 只能选择完整的单词作为答案。
  • 一个问题可以有多个简短答案(列表)。
  • 如果答案在文本中出现多次,选择与问题上下文相关的答案。
  • 简短和长答案,或不同问题的答案,可能在文本中重叠。
  • 约 10% 的问题应为是非题。
  • 对于是非题,选择一个文本段落作为答案,并点击答案以显示进一步选项。
  • 如果答案在问题上下文中语法不正确,选择答案后点击并勾选“不同答案”。
  • 包含“为什么...?”(原因、效果)类型的问题。
  • 没有词序限制,不必以疑问词开始。
  • 尽可能改写问题,使其不使用文本中的相同词汇。
  • 问题应“自包含”,不包含仅在了解文本后才能理解的部分。
  • 问题的顺序与答案在文本中的位置无关。
  • 对于无法回答的问题,提出在文本中未涉及的问题。
  • 包含需要计算或进行算术运算才能回答的问题。
  • 对于“为什么?”类型的问题,可以提供更短或更好的答案。
  • 对于计数问题,在给出 x 个简短答案后,在其他精确答案框中写入 x,并在框中勾选“算术”。
  • 如果一个句子包含使下一个句子有意义的信息,且问题的简短答案在第二个句子中,两个句子都应包含在长答案中。
  • 长答案应至少是完整的从句,最好是完整的句子或多句。
  • 如果某个段落非常语法错误或听起来不正确,不要添加问题。
  • 如果文本中存在事实错误或自相矛盾,不要输入与这些部分相关的问题。

数据格式

数据库以 json 数据文件形式存储,格式基于 SQuAD 2.0。包含简短和长答案的列表,每个答案可能有“modanswer”,以及特殊的“type”。问题类型“qtype”由属于该问题的答案的类型特征聚合而成。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作