sagaekakristi/squad_id_muis_2020
收藏Hugging Face2024-01-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sagaekakristi/squad_id_muis_2020
下载链接
链接失效反馈官方服务:
资源简介:
SQuAD ID数据集是一个经过重新组织和校正的印尼语问答数据集。该数据集来源于ICAICTA 2020会议的一篇论文,主要任务是问答和抽取式问答。数据集包含多个特征字段,如原始ID、上下文、问题、答案等。在数据校正过程中,修正了原始数据中错误的`answer_start`字段,并添加了相关字段作为备份。如果所有答案都无法找到,`is_all_answer_missing`字段将被标记为true。
SQuAD ID数据集是一个经过重新组织和校正的印尼语问答数据集。该数据集来源于ICAICTA 2020会议的一篇论文,主要任务是问答和抽取式问答。数据集包含多个特征字段,如原始ID、上下文、问题、答案等。在数据校正过程中,修正了原始数据中错误的`answer_start`字段,并添加了相关字段作为备份。如果所有答案都无法找到,`is_all_answer_missing`字段将被标记为true。
提供机构:
sagaekakristi
原始信息汇总
SQuAD ID
数据集概述
SQuAD ID 是一个经过重新组织和修正的问答数据集。
数据特征
数据集包含以下特征:
- origin_id: 字符串类型
- context: 字符串类型
- question: 字符串类型
- answers: 字符串类型
- is_impossible: 布尔类型
- title: 字符串类型
- failure_count: 整数类型
- paragraph_postags: 字符串类型
- paragraph_entities: 字符串类型
- qa_postags: 字符串类型
- qa_entities: 字符串类型
- plausible_answers: 字符串类型
- indonesian_answers: 字符串类型
- indonesian_plausible_answers: 字符串类型
- is_all_answer_missing: 布尔类型
- is_data_invalid: 布尔类型
- origin_split: 字符串类型
- exclude_suggestion: 布尔类型
数据修正
数据集中存在许多不正确的 answer_start,这些位置提取的子文本与答案文本不匹配。为了修正这个问题,使用了一个脚本通过 Python 的 find() 方法在上下文中查找答案文本。如果找到,answer_start 将被替换,并将原始的 answer_start 备份到 answer_start_original。如果未找到,answer_start 将为空。此外,如果 answers 中的所有答案都无法找到,is_all_answer_missing 字段将设置为 true 作为指示。



