rifkiaputri/idk-mrc
收藏Hugging Face2023-05-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rifkiaputri/idk-mrc
下载链接
链接失效反馈官方服务:
资源简介:
IDK-MRC是一个印尼语的机器阅读理解数据集,涵盖了可回答和不可回答的问题。该数据集基于TyDiQA中的现有可回答问题,通过问题生成模型和人工编写的问题生成了新的不可回答问题。数据集中的每个段落都有一组可回答和不可回答的问题及其对应的答案。数据集主要用于训练机器阅读理解或抽取式问答模型。
IDK-MRC is an Indonesian machine reading comprehension (MRC) dataset encompassing both answerable and unanswerable questions. It is built upon existing answerable questions sourced from TyDiQA, with new unanswerable questions generated via question generation models and manually authored questions. Each passage in the dataset is paired with a set of answerable and unanswerable questions along with their corresponding answers. The dataset is primarily intended for training machine reading comprehension or extractive question answering models.
提供机构:
rifkiaputri
原始信息汇总
数据集概述:IDK-MRC
数据集描述
- 名称: IDK-MRC
- 语言: 印度尼西亚语
- 许可证: CC-BY-4.0
- 多语言性: 单语种
- 大小: 1K<n<10K
- 任务类别: 问答
- 任务ID: 抽取式问答
数据集结构
数据实例
每个数据实例包含以下字段:
context: 上下文段落,字符串类型qas: 问题列表,每个问题包含:id: 问题ID,字符串类型is_impossible: 是否无法回答,布尔类型question: 问题内容,字符串类型answers: 答案列表,每个答案包含:text: 答案内容,字符串类型answer_start: 答案开始位置,整数类型
数据分割
train: 9,332个实例(5,042可回答,4,290不可回答)valid: 764个实例(382可回答,382不可回答)test: 844个实例(422可回答,422不可回答)
数据集创建
注释过程
- 注释者: 四名具有2年以上印度尼西亚语NLP注释经验的本地注释者
- 注释任务: 验证模型生成的不可回答问题并编写新的不可回答问题
- 注释者资格: 印度尼西亚本地人,居住在爪哇岛,年龄在18至34岁之间,每小时支付约$7.5
使用考虑
- 数据集使用印度尼西亚语的TyDiQA-GoldP数据集中的段落和可回答问题构建
- 模型生成的问题经过人工注释者验证,以减少有害内容的风险
- 建议在使用数据集和相关模型之前进行进一步评估,特别是对于预训练语言模型
附加信息
- 许可证: CC BY-SA 4.0
- 引用信息: 请参考提供的BibTeX条目进行引用



