five

sagaekakristi/squad_id_muis_2020

收藏
Hugging Face2024-01-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sagaekakristi/squad_id_muis_2020
下载链接
链接失效反馈
官方服务:
资源简介:
SQuAD ID数据集是一个经过重新组织和校正的印尼语问答数据集。该数据集来源于ICAICTA 2020会议的一篇论文,主要任务是问答和抽取式问答。数据集包含多个特征字段,如原始ID、上下文、问题、答案等。在数据校正过程中,修正了原始数据中错误的`answer_start`字段,并添加了相关字段作为备份。如果所有答案都无法找到,`is_all_answer_missing`字段将被标记为true。

SQuAD ID数据集是一个经过重新组织和校正的印尼语问答数据集。该数据集来源于ICAICTA 2020会议的一篇论文,主要任务是问答和抽取式问答。数据集包含多个特征字段,如原始ID、上下文、问题、答案等。在数据校正过程中,修正了原始数据中错误的`answer_start`字段,并添加了相关字段作为备份。如果所有答案都无法找到,`is_all_answer_missing`字段将被标记为true。
提供机构:
sagaekakristi
原始信息汇总

SQuAD ID

数据集概述

SQuAD ID 是一个经过重新组织和修正的问答数据集。

数据特征

数据集包含以下特征:

  • origin_id: 字符串类型
  • context: 字符串类型
  • question: 字符串类型
  • answers: 字符串类型
  • is_impossible: 布尔类型
  • title: 字符串类型
  • failure_count: 整数类型
  • paragraph_postags: 字符串类型
  • paragraph_entities: 字符串类型
  • qa_postags: 字符串类型
  • qa_entities: 字符串类型
  • plausible_answers: 字符串类型
  • indonesian_answers: 字符串类型
  • indonesian_plausible_answers: 字符串类型
  • is_all_answer_missing: 布尔类型
  • is_data_invalid: 布尔类型
  • origin_split: 字符串类型
  • exclude_suggestion: 布尔类型

数据修正

数据集中存在许多不正确的 answer_start,这些位置提取的子文本与答案文本不匹配。为了修正这个问题,使用了一个脚本通过 Python 的 find() 方法在上下文中查找答案文本。如果找到,answer_start 将被替换,并将原始的 answer_start 备份到 answer_start_original。如果未找到,answer_start 将为空。此外,如果 answers 中的所有答案都无法找到,is_all_answer_missing 字段将设置为 true 作为指示。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作