WebFAQ Q&A Dataset
收藏github2025-03-04 更新2025-03-04 收录
下载链接:
https://github.com/padas-lab-de/webfaq
下载链接
链接失效反馈官方服务:
资源简介:
WebFAQ问答数据集是一个包含9600万自然问答对(QA对)的广泛覆盖语料库,涵盖75种语言,从网页上的FAQ页面收集而成。它利用了结构化的schema.org FAQPage注释,使其成为大规模问答研究的一个独特资源。每个条目包括一个问题、相应的答案以及额外的元数据,如语言、主题和问题类型。
The WebFAQ QA dataset is a large-scale, wide-coverage corpus containing 96 million natural question-answer (QA) pairs covering 75 languages, collected from FAQ pages on the web. It leverages structured schema.org FAQPage annotations, making it a unique resource for large-scale question answering research. Each entry includes a question, its corresponding answer, and additional metadata such as language, topic, and question type.
创建时间:
2025-02-19
原始信息汇总
WebFAQ Q&A 数据集概述
数据集基本信息
- 名称: WebFAQ Q&A Dataset
- 规模: 9600万自然语言问答对
- 语言覆盖: 75种语言
- 数据来源: 从网页FAQ页面收集,利用schema.org FAQPage结构化标注
数据内容
- 每条记录包含:
- 问题文本
- 对应答案文本
- 元数据:
- 语言
- 主题
- 问题类型
数据处理工具
- 提供从Web Data Commons (WDC)转储中提取问答对的代码
- 支持以下处理流程:
- 数据提取
- 数据合并
- 嵌入生成(支持LaBSE和Jina v3)
评估方法
BM25检索
- 使用pyserini构建索引
- 评估命令:
webfaq bm25 evaluate - 结果存储路径示例:
/webfaq/temp/evaluation/eng/
密集检索
- 支持sentence-transformers兼容模型
- 评估命令:
webfaq evaluate <model_name> webfaq
混合检索
- 结合BM25和XLM-RoBERTa模型
- 评估命令:
webfaq bm25 evaluate-hybrid
依赖环境
- Java要求: JDK 21
- 语言检测模型: fastText的lid.176.bin
- Python包管理: 推荐使用Poetry
数据样本
- 提供示例文件:FAQPage_sample.txt
- 存储路径:
datasets/FAQPage/
许可证
- MIT License
搜集汇总
数据集介绍

构建方式
WebFAQ Q&A Dataset 是通过采集网络上的FAQ页面,利用schema.org FAQPage结构化注释,从Web Data Commons (WDC) 数据中获得的大规模自然问题-答案对。该数据集的构建涉及从WDC数据 dumps中提取QA对,并进一步处理和分析,以形成一个包含九千六百万对自然语言QA对,涵盖75种语言的广泛覆盖语料库。
特点
此数据集的独特之处在于其大规模的覆盖范围,包含多语言的问题和答案,以及额外的元数据,如语言、主题和问题类型。它为大型问答研究提供了一个宝贵的资源,特别是对于那些需要跨语言和广泛主题的研究。
使用方法
用户可以通过设置Python虚拟环境并安装必要的依赖项来使用该数据集。数据集的提取需要下载WDC数据 dumps,并使用提供的脚本进行QA对的抽取和合并。此外,数据集支持使用BM25、密集检索和混合检索方法进行评估,以检验不同的问答检索性能。
背景与挑战
背景概述
WebFAQ Q&A Dataset是一款涵盖广泛的自然问答对语料库,包含9600万条自然问答对,涵盖75种语言,采集自网络上的FAQ页面。该数据集利用了结构化的schema.org FAQPage注释,成为大型问答研究的一项独特资源。该数据集的创建,为大规模的问答研究提供了宝贵的原始资料,其创建时间为近期,由相关研究人员和机构基于前沿技术合作完成。该数据集的核心研究问题聚焦于自然语言处理领域,特别是在机器阅读理解和信息检索方面。由于其全面性和多样性,WebFAQ Q&A Dataset对相关领域产生了显著影响,促进了多语言问答系统的开发和评估。
当前挑战
WebFAQ Q&A Dataset在构建和应用过程中面临诸多挑战。首先,从网络中提取高质量的问答对需要克服噪声数据和结构多样性带来的困难。其次,多语言的处理和识别需要解决语言识别和统一编码的问题。此外,构建适用于多种语言和不同领域的问答系统,需要解决模型泛化能力和跨语言信息检索的挑战。在数据集构建方面,还需处理如何有效地存储、索引和检索大规模数据集的技术问题。
常用场景
经典使用场景
WebFAQ Q&A Dataset作为大规模问题回答研究的数据集,其经典使用场景主要在于自然语言处理领域中的问答系统训练与评估。该数据集提供了丰富的自然问题及其对应答案,为研究者提供了一个全面的语言理解与生成测试平台。
实际应用
在实际应用中,WebFAQ Q&A Dataset可被用于改进搜索引擎的问答功能,优化客户服务中的自动回复系统,以及提升智能助手在多语言环境下的交互能力。
衍生相关工作
基于此数据集,研究者们已衍生出多项相关工作,包括但不限于多语言问答模型的研究、跨语言信息检索的探索,以及结合该数据集进行机器翻译后评估等。
以上内容由遇见数据集搜集并总结生成



