kumapo/JAQKET
收藏Hugging Face2023-10-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kumapo/JAQKET
下载链接
链接失效反馈官方服务:
资源简介:
JAQKET数据集旨在促进日本的问答/机器阅读理解研究,提供易于研究者使用的日语开放域问答任务数据集。数据集包含两个版本:v1.0和v2.0。v1.0是一个多项选择题任务,其中问题文后提供多个答案选项,要求从中选择一个正确答案。v2.0是一个开放性问题回答任务,其中只提供问题文,要求系统返回解答字符串。数据集的语言为日语,结构包括训练集和验证集,每个版本的数据集都有特定的特征和示例。
JAQKET数据集旨在促进日本的问答/机器阅读理解研究,提供易于研究者使用的日语开放域问答任务数据集。数据集包含两个版本:v1.0和v2.0。v1.0是一个多项选择题任务,其中问题文后提供多个答案选项,要求从中选择一个正确答案。v2.0是一个开放性问题回答任务,其中只提供问题文,要求系统返回解答字符串。数据集的语言为日语,结构包括训练集和验证集,每个版本的数据集都有特定的特征和示例。
提供机构:
kumapo
原始信息汇总
数据集概述
数据集名称
- 名称: JAQKET
数据集描述
- 目的: 促进日本语的开放域问答/机器阅读理解研究。
- 内容: 基于Wikipedia文章名的日语开放域QA任务数据集。
支持的任务
- JAQKET v1.0: 处理的是选择题,问题文对应多个解答选项,从中选择一个正确答案。
- JAQKET v2.0: 仅提供问题文,要求构建系统从问题文中返回正确的文字串作为答案。
语言
- 语言: 日语
数据集结构
-
JAQKET v1.0:
- 特征: qid, question, answer_entity, label, answer_candidates, contexts
- 数据实例: 包含问题ID、问题文本、答案实体、标签、候选答案和上下文。
- 示例: json { "qid": "QA20QBIK-0002", "question": "童謡『たなばたさま』の歌詞で、「さらさら」と歌われる植物は何の葉?", "answer_entity": "ササ", "answer_candidates": [ "ササ", "チシマザサ", "クマザサ", "アダン", "チガヤ", "アセビ", "ススキ", "ホオノキ", "マテバシイ", "ヤマフジ", "ウツギ", "タムシバ", "ミズキ", "アキタブキ", "トベラ", "クヌギ", "ネズミモチ", "ヒシ", "コブシ", "オオウバユリ" ], "qtype": "なに〜" }
-
JAQKET v2.0:
- 特征: qid, question, answers, ctxs
- 数据实例: 包含问题ID、问题文本、答案和上下文。
- 示例: json { "qid": "QA20QBIK-0002", "question": "童謡『たなばたさま』の歌詞で、「さらさら」と歌われる植物は何の葉?", "answers": ["ササ"] }
许可证
- 许可证: cc-by-sa-4.0



