PUGG
收藏arXiv2024-08-05 更新2024-08-07 收录
下载链接:
https://huggingface.co/datasets/clarin-pl/PUGG
下载链接
链接失效反馈官方服务:
资源简介:
PUGG数据集由弗罗茨瓦夫理工大学开发,是首个波兰语知识库问答(KBQA)资源,涵盖KBQA、机器阅读理解(MRC)和信息检索(IR)三个任务。该数据集包含自然发生的波兰语事实问题,并通过半自动化流程创建,减少了人工标注的工作量。数据集的创建过程中未使用翻译,确保了数据的自然性。PUGG数据集主要用于解决低资源语言环境下AI和自然语言处理中的问答系统问题。
The PUGG dataset, developed by Wrocław University of Science and Technology, is the first Polish-language knowledge base question answering (KBQA) resource covering three tasks: KBQA, machine reading comprehension (MRC), and information retrieval (IR). This dataset contains naturally occurring Polish factual questions and was constructed via a semi-automated pipeline, which reduces the workload of manual annotation. No translation was used during the dataset creation process, ensuring the naturalness of the data. The PUGG dataset is primarily designed to address question answering system challenges in AI and natural language processing in low-resource language settings.
提供机构:
弗罗茨瓦夫理工大学
创建时间:
2024-08-05
原始信息汇总
PUGG: KBQA, MRC, IR Dataset for Polish
数据集概述
基本信息
- 语言: 波兰语 (pl)
- 许可证: CC BY-SA 4.0
- 多语言性: 单语种 (monolingual)
- 数据量: 1K<n<10K 和 10K<n<100K
- 数据来源: 原始数据 (original)
- 任务类别:
- 问答 (question-answering)
- 文本检索 (text-retrieval)
- 任务ID:
- 抽取式问答 (extractive-qa)
- 文档检索 (document-retrieval)
数据集配置
- kbqa_all:
- 训练集:
kbqa/*/train.jsonl - 测试集:
kbqa/*/test.jsonl
- 训练集:
- kbqa_natural:
- 训练集:
kbqa/natural/train.jsonl - 测试集:
kbqa/natural/test.jsonl
- 训练集:
- kbqa_template-based:
- 训练集:
kbqa/template-based/train.jsonl - 测试集:
kbqa/template-based/test.jsonl
- 训练集:
- mrc:
- 训练集:
mrc/train.jsonl - 测试集:
mrc/test.jsonl
- 训练集:
- ir_corpus:
- 测试集:
ir/corpus.jsonl
- 测试集:
- ir_queries:
- 测试集:
ir/queries.jsonl
- 测试集:
- ir_qrels:
- 测试集:
ir/qrels/test.jsonl
- 测试集:
标签
- 知识图谱 (knowledge graph)
- KBQA
- 维基百科 (wikipedia)
- 维基数据 (wikidata)
搜集汇总
数据集介绍

构建方式
PUGG数据集的构建采用了现代半自动化的方法,旨在为资源匮乏的语言环境提供KBQA、MRC和IR任务的数据集。首先,从现有的QA数据集中提取问题前缀,并利用规则和语言模型等方法生成问题。接着,使用Wikipedia作为数据源,通过检索技术获取相关文章,并将其分割成更小的段落。然后,使用LLM或预训练的提取式模型对段落进行标注,提取候选答案实体。此外,还进行了实体链接过程,识别和链接KG中提到的实体。最后,通过人工验证过程确保数据质量,并创建KBQA、MRC和IR数据集。
特点
PUGG数据集具有以下特点:1. 包含KBQA、MRC和IR三种任务的数据;2. 包含自然和基于模板的事实性问题;3. 针对波兰语低资源环境设计;4. 利用LLM等现代工具辅助人工标注,减少人工工作量;5. 提供了详尽的实现、有见地的发现、详细的统计数据和基线模型的评估。
使用方法
使用PUGG数据集时,可以按照以下步骤进行:1. 选择所需的任务(KBQA、MRC或IR);2. 下载对应的数据集;3. 使用基线模型或自定义模型进行训练和评估;4. 利用数据集中的统计信息和发现,进一步改进模型和任务;5. 参考论文和相关资源,深入了解数据集的构建和使用方法。
背景与挑战
背景概述
随着人工智能和自然语言处理技术的进步,人机语言交互取得了革命性的进展,问答(QA)系统在其中扮演着关键角色。知识库问答(KBQA)任务利用结构化知识图谱(KG),可以处理大量知识密集型问题。然而,KBQA数据集存在一个显著的差距,尤其是在低资源语言方面。许多现有的数据集构建流程过时且效率低下,且未利用现代辅助工具如大型语言模型(LLM)来减轻工作量。为了解决这个问题,我们设计并实现了一种现代的半自动化方法来创建数据集,包括KBQA、机器阅读理解(MRC)和信息检索(IR)等任务,专门针对低资源环境。我们执行了这个流程,并引入了PUGG数据集,这是第一个波兰KBQA数据集,以及MRC和IR的新数据集。此外,我们还提供了全面的实施、有见地的发现、详细统计和基线模型的评估。
当前挑战
KBQA数据集存在显著差距,尤其是在低资源语言方面。许多现有数据集的构建流程过时且效率低下,且未利用现代辅助工具如大型语言模型(LLM)来减轻工作量。为了解决这个问题,我们设计并实现了一种现代的半自动化方法来创建数据集,包括KBQA、机器阅读理解(MRC)和信息检索(IR)等任务,专门针对低资源环境。
常用场景
经典使用场景
PUGG数据集是针对波兰语的知识图谱问答(KBQA)、机器阅读理解(MRC)和信息检索(IR)任务构建的现代数据集。该数据集的构建旨在解决低资源语言在KBQA领域的数据集匮乏问题,为波兰语的研究和应用提供了宝贵的资源。PUGG数据集的构建过程采用了半自动化的方法,利用大型语言模型(LLM)等现代工具,极大地减少了人工标注的工作量,并确保了数据集的质量。该数据集的构建过程包括问题生成、文本段落检索、文本答案和答案实体的提取、实体链接和人工验证等步骤。PUGG数据集的构建为KBQA、MRC和IR任务的研究和应用提供了重要的参考和基准。
实际应用
PUGG数据集的实际应用场景包括KBQA、MRC和IR任务的研究和应用。该数据集的构建为波兰语的研究和应用提供了宝贵的资源,可以用于开发波兰语的问答系统、文本理解系统和信息检索系统。此外,PUGG数据集的构建过程也为其他低资源语言的数据集构建提供了重要的参考和经验。
衍生相关工作
PUGG数据集的构建对KBQA、MRC和IR任务的研究和应用产生了深远的影响。该数据集的构建为波兰语的研究和应用提供了宝贵的资源,可以用于开发波兰语的问答系统、文本理解系统和信息检索系统。此外,PUGG数据集的构建过程也为其他低资源语言的数据集构建提供了重要的参考和经验。PUGG数据集的构建过程和结果为相关领域的研究和应用提供了重要的参考和基准。
以上内容由遇见数据集搜集并总结生成



