Generative QA corpus on the whole Russian Wikipedia

github2023-04-07 更新2024-05-31 收录

下载链接：

https://github.com/RussianNLP/WikiOmnia

下载链接

链接失效反馈

官方服务：

资源简介：

基于整个俄语维基百科的生成式问答语料库，可通过请求获取。该数据集包含维基百科摘要、生成的问题和答案，并通过自动启发式方法进行质量过滤。

A generative question-answering corpus based on the entire Russian Wikipedia, accessible upon request. This dataset encompasses Wikipedia summaries, generated questions and answers, and has undergone quality filtering through automated heuristic methods.

创建时间：

2022-01-18

原始信息汇总

数据集概述

数据集名称

Generative QA corpus on the whole Russian Wikipedia

数据集内容

包含从整个俄语维基百科中提取的摘要、生成的问题及其答案。
可通过邮件请求完整数据集：dinabpr@gmail.com, rybolos@gmail.com

数据处理工具

提供Docker工具用于过滤数据，确保数据质量。
过滤过程基于自动化启发式方法。

数据处理流程

将包含summary, question, answer列的pandas dataframe文件（格式为{model_name}_batch{number}_all.csv）放置于data/in/目录。
文件将被分割处理，每段包含1000个示例。
处理后的数据将保存至data/out/目录。

运行指令

使用脚本./run.sh {batch_number}进行数据过滤。

过滤标准

移除问题中包含超过一个疑问代词的三元组。
使用SberQuad训练的Squad ru rubert infer BERT模型生成黄金答案，保留答案与黄金答案词形还原后匹配度超过70%的示例。
移除问题或答案中的命名实体未在相应维基百科摘要中出现的情况。
移除问题和答案的Levenshtein距离相似度超过70%的重复示例。

注意事项

其他参数和检查（如additional_checks, metrics）仅用于实验，未完全调试，可能导致错误。

搜集汇总

数据集介绍

构建方式

该数据集构建于整个俄语维基百科的基础上，采用自动化启发式方法生成问题与答案对。通过Docker容器进行过滤，确保数据质量。具体步骤包括从维基百科摘要中提取信息，生成相关问题与答案，并通过一系列过滤规则剔除低质量样本。过滤规则包括去除包含多个疑问代词的问题、使用BERT模型验证答案的准确性，以及通过字符串匹配方法确保命名实体的一致性。

特点

该数据集的特点在于其高质量的问题与答案对，这些对通过严格的过滤机制生成。数据集中的每个样本都经过BERT模型的验证，确保答案的准确性。此外，数据集还通过命名实体匹配和重复样本检测，进一步提升了数据的可靠性和多样性。这些特点使得该数据集在生成式问答任务中具有较高的实用价值。

使用方法

使用该数据集时，首先需将包含维基百科摘要、生成问题及答案的CSV文件放入指定文件夹。通过运行Docker容器中的过滤脚本，数据集将自动进行分片处理，每片包含1000个样本。过滤后的数据将保存在输出文件夹中，用户可根据需求进一步处理或直接用于模型训练。过滤过程中，系统会自动应用多种优化规则，确保输出数据的质量。

背景与挑战

背景概述

Generative QA corpus on the whole Russian Wikipedia 数据集是一个专注于俄语维基百科的生成式问答语料库，旨在通过自动化生成问题和答案对，推动俄语自然语言处理领域的研究。该数据集由俄罗斯的研究团队开发，主要研究人员包括Dina Burlakova和Roman Yablokov等人。其核心研究问题在于如何通过自动化方法生成高质量的问答对，并确保其与维基百科摘要的语义一致性。该数据集的创建为俄语问答系统、机器翻译以及信息检索等领域提供了重要的数据支持，进一步推动了俄语自然语言处理技术的发展。

当前挑战

该数据集在构建过程中面临多项挑战。首先，生成高质量问答对需要克服自动化生成中的语义一致性问题，尤其是在俄语这种形态复杂的语言中。其次，数据过滤过程依赖于多种启发式方法和模型（如Squad ru rubert），以确保问答对的准确性和相关性，但这一过程可能引入误差。此外，命名实体匹配和重复样本的剔除也增加了数据处理的复杂性。尽管现有过滤方法已优化，但部分实验性参数和检查仍可能导致错误，需进一步调试和改进。这些挑战凸显了在生成式问答系统中平衡自动化与数据质量的难度。

常用场景

经典使用场景

Generative QA corpus on the whole Russian Wikipedia数据集在自然语言处理领域中被广泛应用于生成式问答系统的训练与评估。通过该数据集，研究人员能够构建和优化基于俄语维基百科的问答模型，尤其是在处理复杂的语义理解和生成任务时，该数据集提供了丰富的语料支持。其经典使用场景包括问答生成、文本摘要生成以及机器翻译等领域，为俄语自然语言处理研究提供了重要的数据基础。

解决学术问题

该数据集有效解决了生成式问答系统中数据稀缺和质量控制的问题。通过自动化过滤机制，确保了问答对的高质量，减少了噪声数据的干扰。此外，数据集中的问答对经过严格的筛选和验证，能够帮助研究人员更好地理解俄语语义结构，提升问答模型的准确性和鲁棒性。这一数据集为俄语自然语言处理领域的研究提供了标准化和高质量的实验数据，推动了相关技术的进步。

衍生相关工作

基于该数据集，许多经典研究工作得以展开。例如，研究人员利用该数据集开发了基于Transformer架构的俄语问答模型，显著提升了生成式问答系统的性能。此外，该数据集还催生了一系列关于俄语语义理解和生成任务的研究，如基于BERT的俄语问答模型优化、多语言问答系统的开发等。这些工作不仅推动了俄语自然语言处理技术的发展，也为其他语言的研究提供了借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集