lmqg/qag_zhquad

Name: lmqg/qag_zhquad
Creator: lmqg
Published: 2023-11-07 19:15:25
License: 暂无描述

Hugging Face2023-11-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/lmqg/qag_zhquad

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个基于中文SQuAD的问题和答案生成数据集。该数据集用于训练模型以生成问题和答案，成功与否通常通过达到高BLEU4/METEOR/ROUGE-L/BERTScore/MoverScore等指标来衡量。数据集包含问题、答案、段落和问题答案对等字段，并分为训练集、验证集和测试集。

This is a question and answer generation dataset based on the Chinese SQuAD. It is used for training models to generate questions and answers, and the effectiveness of the trained models is typically measured by achieving high scores on metrics such as BLEU4, METEOR, ROUGE-L, BERTScore, and MoverScore. The dataset contains fields including questions, answers, paragraphs, and question-answer pairs, and is split into training, validation, and test sets.

提供机构：

lmqg

原始信息汇总

数据集卡片 for "lmqg/qag_zhquad"

数据集描述

数据集概要: 这是一个基于Chinese SQuAD的问题和答案生成数据集。更多详情请参见原始仓库(https://github.com/junzeng-pluto/ChineseSquad)。

支持的任务和排行榜

question-answer-generation: 该数据集用于训练问题和答案生成模型。任务的成功通常通过获得高BLEU4/METEOR/ROUGE-L/BERTScore/MoverScore来衡量（详见我们的论文）。

语言

日语 (ja)

数据集结构

数据字段在所有拆分中相同。

questions: 一个包含字符串特征的列表。
answers: 一个包含字符串特征的列表。
paragraph: 一个字符串特征。
questions_answers: 一个字符串特征。

数据拆分

train	validation	test
19097	2475	6664

引用信息

@inproceedings{ushio-etal-2022-generative, title = "{G}enerative {L}anguage {M}odels for {P}aragraph-{L}evel {Q}uestion {G}eneration", author = "Ushio, Asahi and Alva-Manchego, Fernando and Camacho-Collados, Jose", booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing", month = dec, year = "2022", address = "Abu Dhabi, U.A.E.", publisher = "Association for Computational Linguistics", }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量的问题生成数据集对于推动问答系统研究至关重要。lmqg/qag_zhquad数据集基于经典的中文SQuAD数据集构建，通过系统化的数据转换与增强流程，将原始的阅读理解语料转化为适用于问题生成任务的训练资源。其构建过程严格遵循学术规范，确保了数据来源的可靠性与标注的一致性，为生成模型提供了结构化的段落、问题及对应答案三元组。

特点

该数据集专为段落级问题生成任务设计，其核心特点在于提供了丰富的上下文段落与多样化的问题-答案对。数据覆盖领域广泛，语言表达自然流畅，能够有效模拟真实场景下的信息交互需求。作为单语种中文数据集，它在保持语言纯净度的同时，蕴含了复杂的语义关系与语法结构，为模型训练提供了充分的语言多样性挑战。

使用方法

研究人员可利用该数据集训练端到端的问题生成模型，通过输入给定段落，模型学习生成相关且语法正确的问题。典型使用流程包括数据加载、模型微调与评估三个阶段，评估指标常采用BLEU、ROUGE等自动度量方法。数据集已预先划分为训练集、验证集与测试集，便于进行规范的机器学习实验设计与性能比较。

背景与挑战

背景概述

在自然语言处理领域，段落级问题生成任务旨在从给定文本中自动生成相关且连贯的问题，这对于机器阅读理解、教育技术及对话系统的发展具有深远意义。lmqg/qag_zhquad数据集由Asahi Ushio等研究人员于2022年构建，基于中文SQuAD数据集，专注于中文语境下的问题与答案生成。该数据集通过生成式语言模型推动段落级问题生成的研究，为中文自然语言处理社区提供了关键资源，促进了跨语言模型的应用与评估，并在相关学术会议如EMNLP中得到了广泛关注。

当前挑战

该数据集旨在解决段落级问题生成领域的核心挑战，即生成语义准确、语法自然且与上下文紧密相关的问题，这要求模型具备深度的语言理解和生成能力。在构建过程中，挑战包括从原始中文SQuAD数据中提取并重构高质量的问题-答案对，确保数据多样性和平衡性，同时处理中文语言的复杂性和歧义性。此外，数据标注和验证过程需克服人工评估的主观性，以及跨语言迁移中的文化差异问题，这些因素共同影响了数据集的可靠性和泛化性能。

常用场景

经典使用场景

在自然语言处理领域，问答生成任务旨在从给定文本中自动产生问题及其对应答案。lmqg/qag_zhquad数据集基于中文SQuAD构建，专为段落级问答生成设计。其经典使用场景涉及训练生成式语言模型，模型接收一段中文文本作为输入，输出与之相关的问题和答案对，从而评估模型在理解文本语义和逻辑关系方面的能力。该场景常被用于学术基准测试，推动问答生成技术的进步。

解决学术问题

该数据集主要解决了生成式问答系统中关键学术问题，如如何从段落中准确提取信息并形成自然语言问题。传统方法多依赖于抽取式问答，而lmqg/qag_zhquad支持生成式范式，促进了模型在语义连贯性和多样性方面的研究。通过提供标准化的中文语料，它帮助研究者克服语言资源不足的挑战，为跨语言问答生成提供了可靠基础，对推动自然语言理解与生成技术的融合具有深远意义。

衍生相关工作

基于lmqg/qag_zhquad数据集，衍生出多项经典研究工作，如生成式语言模型在段落级问答生成中的优化方法。相关论文《Generative Language Models for Paragraph-Level Question Generation》系统探讨了BLEU4、METEOR等评估指标的应用，并推动了多语言问答生成框架的发展。这些工作进一步扩展了数据集的用途，促进了跨任务迁移学习的研究，为后续的中文自然语言处理项目提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集