lmqg/qg_koquad

Name: lmqg/qg_koquad
Creator: lmqg
Published: 2022-12-02 18:53:42
License: 暂无描述

Hugging Face2022-12-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/lmqg/qg_koquad

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于问题生成任务的KorQuAD数据集的子集，专门针对韩语文本。数据集是从KorQuAD原始数据集中修改而来，手动从训练集中抽取了测试集，以确保训练集和测试集在段落上没有重叠。数据集的结构包括问题、段落、答案、句子等字段，并且提供了不同格式的字段以支持不同类型的问题生成模型训练。

This is a subset of the KorQuAD dataset designed for question generation tasks, specifically focused on Korean textual data. The dataset is modified from the original KorQuAD corpus: the test set was manually sampled from the original training split, ensuring no paragraph overlap between the training and test sets. The dataset includes fields such as question, passage, answer, sentence and other related items, and provides diversified field formats to support the training of various types of question generation models.

提供机构：

lmqg

原始信息汇总

数据集概述

基本信息

许可证: cc-by-4.0
名称: KorQuAD for question generation
语言: 韩语 (ko)
多语言性: 单语种
规模: 10K<n<100K
来源数据集: squad_es
任务类别: 文本生成
任务ID: 语言建模
标签: 问题生成

数据集摘要

本数据集是QG-Bench的一部分，是一个统一的问题生成基准。它是KorQuAD的修改版本，用于问题生成任务。测试集是从训练集中手动抽样，确保与训练集在段落上无重叠。

支持的任务和评价指标

任务: 问题生成
评价指标: BLEU4/METEOR/ROUGE-L/BERTScore/MoverScore

数据集结构

数据字段:
- question: 字符串类型
- paragraph: 字符串类型
- answer: 字符串类型
- sentence: 字符串类型
- paragraph_answer: 字符串类型，答案用特殊标记<hl>高亮
- paragraph_sentence: 字符串类型，包含答案的句子用特殊标记<hl>高亮
- sentence_answer: 字符串类型，答案用特殊标记<hl>高亮

数据分割

训练集: 54556
验证集: 5766
测试集: 5766

引用信息

@inproceedings{ushio-etal-2022-generative, title = "{G}enerative {L}anguage {M}odels for {P}aragraph-{L}evel {Q}uestion {G}eneration: {A} {U}nified {B}enchmark and {E}valuation", author = "Ushio, Asahi and Alva-Manchego, Fernando and Camacho-Collados, Jose", booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing", month = dec, year = "2022", address = "Abu Dhabi, U.A.E.", publisher = "Association for Computational Linguistics", }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量的数据集是推动问答生成技术发展的基石。lmqg/qg_koquad数据集源自韩语问答数据集KorQuAD，经过精心重构以适应问答生成任务。原始数据集仅包含训练集和验证集，构建者通过人工采样方式从训练集中抽取测试集，确保测试集在段落层面与训练集无重叠，从而维持评估的公正性与独立性。这一过程不仅扩展了数据集的用途，还增强了其在生成任务中的适用性。

特点

该数据集以韩语为单一语言，规模介于一万至十万样本之间，专为段落级问答生成设计。其核心特征在于提供了多样化的输入格式，包括原始段落、答案、句子以及通过特殊标记<hl>高亮答案或句子的变体，如paragraph_answer、paragraph_sentence和sentence_answer。这些变体支持答案感知和句子感知的生成模式，为模型训练提供了丰富的上下文信息，有助于提升生成问题的准确性和多样性。

使用方法

使用该数据集时，研究人员可将其应用于问答生成模型的训练与评估。数据集已划分为训练集、验证集和测试集，分别包含54556、5766和5766个样本。用户可根据任务需求选择不同的输入特征，例如利用paragraph_answer进行答案驱动的生成，或通过paragraph_sentence实现句子级别的引导。评估通常采用BLEU4、METEOR、ROUGE-L等指标，以量化生成问题的质量，推动生成语言模型在韩语环境下的性能优化。

背景与挑战

背景概述

在自然语言处理领域，段落级问题生成任务旨在从给定文本中自动生成自然且相关的问题，这对于教育技术、智能问答系统及对话机器人的发展具有深远意义。lmqg/qg_koquad数据集由Asahi Ushio等研究人员于2022年构建，作为QG-Bench统一基准的一部分，专门针对韩语自然语言处理研究。该数据集基于著名的韩语问答数据集KorQuAD进行改编，通过引入答案感知和句子感知的问题生成任务，推动了生成式语言模型在韩语语境下的应用与评估，为跨语言问题生成研究提供了关键资源。

当前挑战

该数据集致力于解决韩语段落级问题生成中的核心挑战，包括生成问题的流畅性、多样性与上下文相关性，这些挑战在韩语这类形态丰富且语序灵活的语言中尤为显著。在构建过程中，研究人员面临数据划分的复杂性，由于原始KorQuAD数据集仅包含训练集和验证集，需手动从训练集中抽样测试集，确保段落层面无重叠，以维持评估的公正性。此外，标注过程中需精确处理答案高亮与句子对齐，以支持不同粒度的问题生成任务，这对数据的一致性与质量提出了较高要求。

常用场景

经典使用场景

在自然语言处理领域，特别是针对韩语文本的智能理解与生成任务，lmqg/qg_koquad数据集为段落级问题生成提供了标准化的评估基准。该数据集通过对KorQuAD原始语料进行结构化改造，构建了包含段落、答案及对应问题的三元组，使得研究者能够训练模型基于给定段落和答案自动生成自然流畅的问题。其经典使用场景聚焦于评估生成式语言模型在韩语语境下的语义理解与问题构建能力，通过BLEU4、METEOR等自动化指标衡量生成问题的质量，为跨语言问题生成研究提供了关键数据支撑。

衍生相关工作

围绕该数据集衍生的经典工作主要包括生成式语言模型的架构优化与评估框架创新。例如，原论文提出的QG-Bench统一基准启发了多语言问题生成模型的对比研究，后续工作在此基础上扩展了对抗训练与强化学习策略以提升生成多样性。同时，针对韩语形态学特性，研究者开发了融合音节嵌入的序列到序列模型，显著改善了生成问题的语法自然度。这些进展共同推动了段落级生成任务从单一指标评估向多维度质量衡量的范式转变。

数据集最近研究