five

WebFAQ 2.0

收藏
arXiv2026-02-19 更新2026-02-21 收录
下载链接:
https://huggingface.co/michaeldinzinger/webfaq-v2
下载链接
链接失效反馈
官方服务:
资源简介:
WebFAQ 2.0是由帕绍大学团队构建的大规模多语言问答数据集,包含1.98亿条FAQ形式的自然问答对,覆盖108种语言。该数据集通过直接爬取网页内容构建,显著扩展了跨语言对齐问答对至1430万条,并新增125万条针对稠密检索器训练的困难负样本。数据来源包括Common Crawl和OWLer爬虫工具,通过schema.org结构化标记提取问答对,并保留网页标题和描述以增强上下文信息。该资源主要应用于多语言信息检索、稠密检索模型训练及跨语言语义理解研究,旨在解决非英语语种数据稀缺和检索模型负样本质量不足的问题。

WebFAQ 2.0 is a large-scale multilingual question answering (QA) dataset developed by the research team at the University of Passau. It encompasses 198 million natural question-answer pairs in the FAQ format, spanning 108 languages. Constructed through direct web content crawling, this dataset has significantly expanded the number of cross-lingually aligned QA pairs to 14.3 million, and additionally added 1.25 million hard negative samples dedicated to dense retriever training. The data sources cover Common Crawl and the OWLer crawler tool, where QA pairs are extracted via schema.org structured markup, while webpage titles and descriptions are preserved to enhance contextual information. This resource is primarily utilized for multilingual information retrieval, dense retriever model training and cross-lingual semantic understanding research, with the goal of addressing the challenges of data scarcity for non-English languages and the insufficient quality of negative samples in retrieval models.
提供机构:
帕绍大学; IT:U Austria
创建时间:
2026-02-19
搜集汇总
数据集介绍
构建方式
在构建WebFAQ 2.0数据集时,研究团队摒弃了依赖预处理的静态数据转储的传统方法,转而采用了一种创新的动态采集策略。他们从Common Crawl中挖掘可能包含结构化FAQ标记的URL,并利用OWLer爬虫工具直接抓取网页内容。这一过程不仅提取了问题与答案对,还捕获了页面标题和描述等丰富的上下文信息,从而显著提升了数据的多样性和多语言覆盖范围。通过解析schema.org标记并应用语言检测与过滤机制,最终形成了包含1.98亿个问答对、涵盖108种语言的庞大资源。
特点
WebFAQ 2.0数据集的核心特点体现在其前所未有的规模与语言多样性上。该数据集包含了1.98亿个基于FAQ的自然问答对,覆盖108种语言,其中英语内容的占比从上一版本的超过50%降至30%以下,这标志着非英语语种覆盖取得了实质性突破。数据集还提供了超过1430万个双语对齐的问答对,涉及3970种语言组合,极大地促进了跨语言检索研究。此外,数据集附带了由两阶段挖掘流程生成的困难负样本资源,包含125万个查询及其对应的负例与交叉编码器分数,为密集检索模型的训练提供了关键支持。
使用方法
该数据集为多语言信息检索研究提供了强大的基础资源。研究人员可利用其海量的问答对进行模型预训练或微调,以提升跨语言理解与检索能力。特别地,附带的困难负样本数据集支持两种主流的训练范式:基于对比学习的MultipleNegativesRanking损失函数训练,以及利用交叉编码器分数进行知识蒸馏的MarginMSE损失函数训练。这些方法有助于模型学习区分语义相近但非相关的负例,从而增强检索的鲁棒性。数据集已通过GitHub和HuggingFace平台公开,便于社区直接用于模型开发与评估。
背景与挑战
背景概述
在信息检索与自然语言处理领域,构建大规模、高质量的多语言问答数据集对于推动跨语言检索模型的发展至关重要。WebFAQ 2.0数据集由德国帕绍大学的研究团队于2026年发布,作为WebFAQ数据集的新版本,其核心研究目标在于解决多语言密集检索模型训练中数据规模与语言覆盖度不足的瓶颈。该数据集包含来自108种语言的1.98亿个基于常见问题(FAQ)的自然问答对,并通过直接爬取网页内容的新策略,显著提升了数据的多样性与上下文丰富性。此外,数据集还提供了超过1430万的双语对齐问答对,以及专门为训练密集检索器而构建的包含125万查询的硬负例数据集。这一资源的发布,极大地促进了多语言与跨语言信息检索的研究,为模型训练与评估提供了更为全面和实用的基础。
当前挑战
WebFAQ 2.0数据集致力于解决多语言密集检索中的核心挑战,即如何在大规模、多语言的语境下,精准匹配问题与相关答案,并有效训练检索模型以区分高度相似的负例。在构建过程中,研究团队面临多重挑战:首先,数据收集依赖于从Common Crawl中直接爬取和解析schema.org结构化标记,这一过程需处理海量异构网页内容,并确保问答对的准确提取与语言识别。其次,为提升跨语言对齐质量,需在104种语言间进行高效的语义匹配,并应用严格的相似度阈值以过滤低质量对齐,这对计算资源与算法精度提出了较高要求。此外,硬负例数据集的构建涉及两阶段挖掘流程(BM25检索与BGE-m3交叉编码器重排序),旨在生成具有挑战性的负例,但过程中仍难以完全避免假负例的出现,这影响了部分训练策略的效果。最后,数据集的持续扩展依赖于Open Web Index的动态更新,如何保持数据的时效性与一致性,亦是未来维护中的潜在难题。
常用场景
经典使用场景
在跨语言信息检索领域,WebFAQ 2.0数据集凭借其涵盖108种语言、包含1.98亿个问答对的庞大规模,成为训练和评估多语言密集检索模型的经典资源。该数据集通过直接爬取网页内容并提取结构化FAQ标记,构建了高度多样化的自然语言问答对集合,尤其适用于模拟真实世界中的多语言用户查询场景。研究人员常利用其双语对齐的问答对,训练能够跨越语言边界理解语义的嵌入模型,从而提升检索系统在全球化环境下的适用性。
解决学术问题
WebFAQ 2.0有效应对了多语言检索研究中数据稀缺与质量不均的挑战。传统上,非英语语种的高质量标注数据难以获取,限制了模型的泛化能力。该数据集通过自动化挖掘策略,大幅扩展了语言覆盖范围,并提供了超过1430万的双语对齐样本,为跨语言检索模型的训练与评估奠定了数据基础。其附带的困难负例数据集,专门针对密集检索器训练中的负例采样难题,通过两阶段挖掘流程生成具有挑战性的负样本,助力模型区分语义相近但无关的内容,从而提升了检索精度与鲁棒性。
衍生相关工作
围绕WebFAQ 2.0数据集,学术界衍生出一系列聚焦于多语言检索与困难负例利用的经典研究工作。例如,基于其提供的困难负例,研究者深入探索了对比学习与知识蒸馏两种训练范式的效能差异,揭示了在非英语语言上知识蒸馏策略的优越性。同时,该数据集也被整合进MTEB等大规模文本嵌入评测基准,催生了新的双语文本挖掘任务,推动了多语言句子嵌入模型的标准化评估。这些工作共同深化了对多语言密集检索模型训练机制的理解,并促进了更高效、更公平的跨语言信息检索技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作