five

kumapo/JAQKET

收藏
Hugging Face2023-10-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kumapo/JAQKET
下载链接
链接失效反馈
官方服务:
资源简介:
JAQKET数据集旨在促进日本的问答/机器阅读理解研究,提供易于研究者使用的日语开放域问答任务数据集。数据集包含两个版本:v1.0和v2.0。v1.0是一个多项选择题任务,其中问题文后提供多个答案选项,要求从中选择一个正确答案。v2.0是一个开放性问题回答任务,其中只提供问题文,要求系统返回解答字符串。数据集的语言为日语,结构包括训练集和验证集,每个版本的数据集都有特定的特征和示例。

JAQKET数据集旨在促进日本的问答/机器阅读理解研究,提供易于研究者使用的日语开放域问答任务数据集。数据集包含两个版本:v1.0和v2.0。v1.0是一个多项选择题任务,其中问题文后提供多个答案选项,要求从中选择一个正确答案。v2.0是一个开放性问题回答任务,其中只提供问题文,要求系统返回解答字符串。数据集的语言为日语,结构包括训练集和验证集,每个版本的数据集都有特定的特征和示例。
提供机构:
kumapo
原始信息汇总

数据集概述

数据集名称

  • 名称: JAQKET

数据集描述

  • 目的: 促进日本语的开放域问答/机器阅读理解研究。
  • 内容: 基于Wikipedia文章名的日语开放域QA任务数据集。

支持的任务

  • JAQKET v1.0: 处理的是选择题,问题文对应多个解答选项,从中选择一个正确答案。
  • JAQKET v2.0: 仅提供问题文,要求构建系统从问题文中返回正确的文字串作为答案。

语言

  • 语言: 日语

数据集结构

  • JAQKET v1.0:

    • 特征: qid, question, answer_entity, label, answer_candidates, contexts
    • 数据实例: 包含问题ID、问题文本、答案实体、标签、候选答案和上下文。
    • 示例: json { "qid": "QA20QBIK-0002", "question": "童謡『たなばたさま』の歌詞で、「さらさら」と歌われる植物は何の葉?", "answer_entity": "ササ", "answer_candidates": [ "ササ", "チシマザサ", "クマザサ", "アダン", "チガヤ", "アセビ", "ススキ", "ホオノキ", "マテバシイ", "ヤマフジ", "ウツギ", "タムシバ", "ミズキ", "アキタブキ", "トベラ", "クヌギ", "ネズミモチ", "ヒシ", "コブシ", "オオウバユリ" ], "qtype": "なに〜" }
  • JAQKET v2.0:

    • 特征: qid, question, answers, ctxs
    • 数据实例: 包含问题ID、问题文本、答案和上下文。
    • 示例: json { "qid": "QA20QBIK-0002", "question": "童謡『たなばたさま』の歌詞で、「さらさら」と歌われる植物は何の葉?", "answers": ["ササ"] }

许可证

  • 许可证: cc-by-sa-4.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作