lmqg/qag_jaquad

Name: lmqg/qag_jaquad
Creator: lmqg
Published: 2022-12-18 07:54:08
License: 暂无描述

Hugging Face2022-12-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/lmqg/qag_jaquad

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个基于JAQuAD的问答生成数据集，主要用于训练问答生成模型。数据集包含段落、问题、答案和问题答案对，语言为日语。数据集的结构包括训练集、验证集和测试集。

提供机构：

lmqg

原始信息汇总

数据集概述

数据集描述

名称: SQuAD for question generation
语言: 日语 (ja)
许可证: cc-by-sa-4.0
多语言性: 单语种
大小: 1k<n<10K
来源: lmqg/qg_jaquad
任务类别:
- text-generation
任务ID:
- language-modeling
标签:
- question-generation

数据集结构

示例字段:
- paragraph: 字符串类型
- questions: 字符串列表类型
- answers: 字符串列表类型
- questions_answers: 字符串类型
数据分割:

分割数量

train 9508

validation 1431

test 3050

支持的任务和评价指标

任务: question-answer-generation
评价指标: BLEU4/METEOR/ROUGE-L/BERTScore/MoverScore

引用信息

@inproceedings{ushio-etal-2022-generative, title = "{G}enerative {L}anguage {M}odels for {P}aragraph-{L}evel {Q}uestion {G}eneration", author = "Ushio, Asahi and Alva-Manchego, Fernando and Camacho-Collados, Jose", booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing", month = dec, year = "2022", address = "Abu Dhabi, U.A.E.", publisher = "Association for Computational Linguistics", }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量的问题生成数据集对于推动问答系统研究至关重要。lmqg/qag_jaquad数据集基于JAQuAD（日语问答数据集）构建，通过结构化转换方法，将原始问答对重新组织为适用于问题与答案联合生成的格式。具体而言，该数据集从JAQuAD中提取段落文本及其对应的问题与答案，并整合为统一的‘questions_answers’字段，确保每个段落均与多个问题及其标准答案相关联。这一构建过程注重保持日语原文的语义完整性与语法规范性，为生成任务提供了可靠的训练基础。

特点

该数据集专为日语问题生成任务设计，其显著特点在于支持段落级别的问题与答案联合生成。数据集中每个样本包含一个连贯的段落文本、对应的问题列表、答案列表以及整合后的‘questions_answers’字符串，这种结构便于模型学习从给定文本中同时生成问题及其答案。数据集规模适中，涵盖训练、验证和测试分割，确保了模型评估的严谨性。此外，所有内容均以日语呈现，语言风格统一，适用于考察生成模型在特定语言环境下的语义理解与表达能力。

使用方法

在应用层面，lmqg/qag_jaquad数据集主要用于训练和评估生成式语言模型，以完成段落级别的问题与答案生成任务。研究人员可将数据集输入模型，通过学习段落与问题答案对之间的映射关系，使模型能够根据新段落自动生成相关问题和答案。典型评估指标包括BLEU4、METEOR、ROUGE-L等，以量化生成内容的质量。使用前需遵循CC-BY-SA-4.0许可协议，并参考相关学术论文确保方法合规，从而推动日语自然语言处理技术的进步。

背景与挑战

背景概述

在自然语言处理领域，日语问答生成任务长期面临高质量数据稀缺的困境。为应对这一挑战，研究人员Asahi Ushio等人于2022年基于JAQuAD数据集构建了lmqg/qag_jaquad数据集，专注于段落级问题生成与答案生成的联合建模。该数据集由学术机构与研究者协同开发，核心研究目标在于推动生成式语言模型在日语语境下的深度理解与内容创造能力，为跨语言问答系统研究提供了重要的基准资源。

当前挑战

该数据集致力于解决日语段落级问答生成的复杂挑战，包括模型需同时生成语法正确、语义连贯的问题与精准对应的答案，并克服日语特有的语法结构与敬语体系带来的生成难度。在构建过程中，挑战主要源于日语标注资源的稀缺性，需要从有限源数据中提取并重构高质量的问题-答案对，同时确保生成内容在事实性与多样性之间的平衡，避免引入标注偏差或文化语境误解。

常用场景

经典使用场景

在自然语言处理领域，日语问答生成任务常面临高质量训练数据稀缺的挑战。lmqg/qag_jaquad数据集基于JAQuAD构建，专门用于训练模型从给定段落中自动生成问题及其对应答案。该数据集通过提供结构化的段落、问题列表和答案列表，为研究者构建端到端的问答生成系统奠定了数据基础，尤其在日语语境下填补了相关资源的空白。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作。例如，原始论文《Generative Language Models for Paragraph-Level Question Generation》提出了基于生成式语言模型的段落级问题生成框架，并建立了多语言评估基准。后续研究在此基础上扩展了跨语言迁移学习、低资源问答生成等方向，进一步推动了自动问答生成技术在学术与工业界的应用探索。

数据集最近研究

分割	数量
train	9508
validation	1431
test	3050