WebFAQ

Name: WebFAQ
Creator: 德国帕绍大学
Published: 2025-02-28 18:46:52
License: 暂无描述

arXiv2025-02-28 更新2025-03-04 收录

下载链接：

https://github.com/padas-lab-de/webfaq https://huggingface.co/PaDaS-Lab

下载链接

链接失效反馈

官方服务：

资源简介：

WebFAQ是一个大规模的多语言问答数据集，由德国帕绍大学提供，包含了来自75种语言的9600万个自然问答对，其中有4700万个非英语样本。数据集通过精细过滤和近似重复检测，生成了高质量的问答资源，用于训练和评估多语言密集检索模型。

WebFAQ is a large-scale multilingual question answering dataset provided by the University of Passau, Germany. It contains 96 million natural question-answer pairs across 75 languages, among which 47 million are non-English samples. The dataset undergoes fine-grained filtering and approximate duplicate detection to generate high-quality question-answer resources for training and evaluating multilingual dense retrieval models.

提供机构：

德国帕绍大学

创建时间：

2025-02-28

搜集汇总

数据集介绍

构建方式

WebFAQ数据集的构建基于从FAQ-style schema.org注释中提取的大规模开放域问答数据。数据集包含了96百万个自然问答对，涵盖75种语言，其中非英语样本为47百万（占49%）。为了确保数据质量，数据集经过精细的过滤和近重复检测，以提供高质量的资源，用于训练和评估多语言密集检索模型。数据集的构建利用了从2022年至2024年三个Common Crawl快照中提取的结构化schema.org注释，特别是那些标记为FAQPage类型的注释。这些注释经过解析，提取出问答对，并去除了模板文本、引号和表情符号。为了进一步分析和分类收集到的FAQ数据，研究人员使用XLM-RoBERTa模型进行了两个文本分类任务：主题分类和问题类型分类。最终，数据集被划分为训练集、验证集和测试集，并通过微调模型实现了高F1分数。此外，为了确保检索数据集中查询和文档之间清晰的相关性，研究人员提出了三种过滤技术：基于问题的去重、基于语义相似性搜索的近重复检测以及基于问答语义一致性过滤。

使用方法

WebFAQ数据集的使用方法包括训练和评估多语言密集检索模型、创建单语检索基准数据集以及构建QA对齐的双语语料库。为了使用WebFAQ训练和评估模型，研究人员可以从GitHub或HuggingFace获取数据集，并根据需要对其进行自定义过滤。此外，研究人员还可以使用WebFAQ创建单语检索基准数据集，这些数据集经过精细的过滤和近重复检测，以确保查询和文档之间清晰的相关性。最后，研究人员可以使用WebFAQ构建QA对齐的双语语料库，这些语料库涵盖了1000多对语言，并通过最先进的bitext挖掘技术和自动LLM评估翻译质量生成。这些双语语料库可以用于训练和评估跨语言信息检索模型。

背景与挑战

背景概述

WebFAQ数据集，由德国帕绍大学的Michael Dinzinger等人创建，是一个大规模的多语言开放域问答数据集。该数据集收集了来自FAQ-style schema.org注释的96百万自然问答对，覆盖75种语言，其中包括4700万（49%）非英语样本。WebFAQ不仅为开放域问答（ODQA）和开放域问答检索提供了大量高质量的数据资源，而且为训练和评估多语言密集检索模型提供了基础。此外，WebFAQ还为20个单语检索基准提供了11.2百万问答对，这些基准通过精细的过滤和近似重复检测进行了精心制作，确保了数据集的高质量。WebFAQ的创建为自然语言处理领域的研究提供了宝贵的资源，推动了开放域问答检索和多语言文本嵌入技术的发展。

当前挑战

WebFAQ数据集面临着一些挑战。首先，数据集虽然包含了大量的问答对，但由于其开放域的特性，数据集的稀疏性仍然是一个挑战。其次，数据集中存在一些近似重复的问答对，这可能会对检索模型的训练和评估产生影响。此外，数据集中的问答对可能缺乏明确的实体标注，这可能会对实体级别的检索性能产生影响。最后，多语言和跨语言数据集的质量受限于语言识别模型的准确性，这可能会对数据集的质量产生影响。为了解决这些挑战，研究人员在数据集的构建过程中采用了精细的过滤技术，包括近似重复检测和语义一致性过滤，以确保数据集的质量。此外，研究人员还使用先进的机器翻译评估方法，以确保生成的双语数据集的翻译质量。

常用场景

经典使用场景

WebFAQ数据集被广泛应用于开放领域的问题回答（ODQA）和问答检索。它包含9600万个自然问答对，覆盖75种语言，其中非英语样本占4700万个（49%）。这些数据集通过精细过滤和近重复检测进行精心策划，为训练和评估多语言密集检索模型提供了高质量的资源。WebFAQ数据集可用于微调预训练的语言模型，从而在开放域问答检索中实现显著的检索性能提升。

解决学术问题

WebFAQ数据集解决了大规模问答数据集通常仅限于英语或基于维基百科的问题，限制了其在真正开放域多语言场景中的应用。通过提供多种语言的问答对，WebFAQ为研究人员提供了更广泛的数据资源，以支持在多语言问答检索领域的进一步研究。WebFAQ数据集的创建和发布对于推动开放域多语言问答检索技术的发展具有重要意义。

实际应用

WebFAQ数据集的实际应用场景包括搜索引擎优化、在线客服系统、智能助手和机器翻译等。它可以帮助搜索引擎更好地理解和回答用户的问题，提高在线客服系统的效率，并支持智能助手在多语言环境中提供准确的答案。此外，WebFAQ数据集还可以用于训练和评估机器翻译模型，提高跨语言问答对的质量。

数据集最近研究