WixQA

Name: WixQA
Creator: Wix.com AI Research, Tel Aviv, Israel
Published: 2025-05-13 23:02:54
License: 暂无描述

arXiv2025-05-13 更新2025-05-15 收录

下载链接：

https://arxiv.org/abs/2505.08643v1

下载链接

链接失效反馈

官方服务：

资源简介：

WixQA 是一个针对企业检索增强生成 (RAG) 的基准测试套件，包含三个基于 Wix.com 客户支持交互的数据集，这些数据集与 Wix 帮助中心知识库的快照紧密结合。数据集包括 WixQA-ExpertWritten，其中包含 200 个真实用户查询和专家撰写的多步骤答案；WixQA-Simulated，其中包含 200 个从用户对话中提取并由专家验证的 QA 对；以及 WixQA-Synthetic，其中包含 6,221 个使用大型语言模型从 Wix 文章中自动生成的 QA 对。该数据集旨在评估企业 RAG 系统在实际企业环境中的性能。

WixQA is a benchmark suite for enterprise retrieval-augmented generation (RAG). It includes three datasets based on customer support interactions from Wix.com, which are tightly coupled with snapshots of the Wix Help Center knowledge base. The three datasets are as follows: WixQA-ExpertWritten, containing 200 real user queries and expert-written multi-step answers; WixQA-Simulated, comprising 200 QA pairs extracted from user conversations and verified by experts; and WixQA-Synthetic, including 6,221 QA pairs automatically generated from Wix articles using large language models (LLMs). This benchmark aims to evaluate the performance of enterprise RAG systems in real-world enterprise environments.

提供机构：

Wix.com AI Research, Tel Aviv, Israel

创建时间：

2025-05-13

原始信息汇总

WixQA: A Multi-Dataset Benchmark for Enterprise Retrieval-Augmented Generation

数据集基本信息

标题: WixQA: A Multi-Dataset Benchmark for Enterprise Retrieval-Augmented Generation
提交日期: 2025年5月13日
作者: Dvir Cohen, Lin Burg, Sviatoslav Pykhnivskyi, Hagit Gur, Stanislav Kovynov, Olga Atzmon, Gilad Barkan
学科分类: 计算机科学 > 人工智能 (cs.AI); 机器学习 (cs.LG)
DOI: https://doi.org/10.48550/arXiv.2505.08643
版本: v1
全文链接: View PDF

摘要

检索增强生成（RAG）是现代问答（QA）系统的基石，能够基于外部知识生成有根据的答案。尽管最近的进展主要由开放领域数据集推动，但企业QA系统需要反映用户在日常支持场景中提出的具体、领域特定问题的数据集。关键的是，评估端到端RAG系统需要包含不仅问题-答案对，还包括答案所依据的特定知识库（KB）快照的基准。为满足这一需求，我们引入了WixQA，一个基准套件，包含精确基于发布KB语料库的QA数据集，实现对检索和生成组件的整体评估。WixQA包括三个不同的QA数据集，源自Wix客户支持互动，并基于Wix帮助中心KB的快照：

WixQA-ExpertWritten: 200个真实用户查询，带有专家编写的多步骤答案。
WixQA-Simulated: 200个专家验证的QA对，从用户对话中提炼。
WixQA-Synthetic: 6,222个LLM生成的QA对，每个KB文章系统生成一个QA对。

数据集发布

许可证: MIT许可证
内容: 发布KB快照和数据集，提供全面的基线结果，形成在企业环境中评估企业RAG系统的独特基准。

相关链接

BibTeX引用: 可通过页面工具获取
其他格式: TeX源码和其他格式可用

搜集汇总

数据集介绍

构建方式

在构建WixQA数据集时，研究团队采用了多源数据整合与专家验证相结合的方法。数据集包含三个子集：WixQA-ExpertWritten基于真实用户查询，由领域专家手工编写详细的多步骤答案；WixQA-Simulated从用户与客服机器人的多轮对话中提炼出200个经过专家验证的问答对；WixQA-Synthetic则利用GPT-4o大语言模型从6,221篇Wix帮助中心文章中自动生成问答对。特别值得注意的是，前两个子集的答案可能涉及多篇文章的知识整合，这一设计精准模拟了企业级问答系统中常见的复杂信息需求场景。

使用方法

WixQA数据集适用于企业级问答系统的开发与评估。研究人员可利用ExpertWritten子集测试系统处理复杂、多步骤问题的能力；Simulated子集适合评估简洁准确的程序性回答生成；而大规模Synthetic子集则为模型训练提供了丰富素材。使用时应结合配套的知识库快照，通过检索相关文档来生成答案。基准测试表明，结合E5密集检索器和GPT-4o等先进生成模型能取得最佳效果，但跨文档信息整合仍是亟待突破的难点。

背景与挑战

背景概述

WixQA数据集由Wix.com AI Research团队于2025年推出，旨在解决企业级检索增强生成（RAG）系统在客户支持场景中的评估难题。该数据集包含三个子集：WixQA-ExpertWritten（200组真实用户查询与专家撰写答案）、WixQA-Simulated（200组从对话提炼的专家验证QA对）和WixQA-Synthetic（6,221组基于知识库文章生成的QA对），并配套发布包含6,221篇帮助文章的知识库快照。其创新性体现在多文档依赖关系的显式建模，要求系统从分散的企业知识中合成信息，填补了现有开放域QA数据集在长流程、专业化企业支持场景的评估空白。

当前挑战

WixQA面临的核心挑战包含两个维度：领域问题方面，需解决企业支持场景中多步骤程序性回答生成（如27%的ExpertWritten答案依赖多篇文章）、领域专业术语理解及真实用户查询的模糊性处理；构建过程方面，存在专家标注成本高昂（需三级验证流程）、对话记录到单轮QA的精准蒸馏（WixQA-Simulated需模拟验证）、以及LLM生成数据与人工标注的质量平衡（Synthetic子集需保持90%以上的事实准确性）。此外，知识库文章类型的异构性（常规文章/功能请求/已知问题）对自动化QA生成提出了细粒度建模要求。

常用场景

经典使用场景

WixQA数据集作为企业级检索增强生成（RAG）系统的基准测试套件，其经典使用场景主要集中在评估模型在真实客户支持环境中的表现。通过整合专家撰写、模拟对话提炼和合成生成的问答对，该数据集能够全面测试RAG系统在处理多步骤程序性回答、跨文档信息合成以及领域特定术语理解等方面的能力。尤其在需要从企业知识库中检索并整合多篇相关文章以生成综合答案的复杂场景中，WixQA提供了独特的评估框架。

解决学术问题

WixQA解决了企业环境中检索增强生成系统评估的若干关键学术问题。首先，它填补了现有开放域QA数据集在领域特异性评估上的空白，尤其针对需要多步指导和专业词汇的长形式问答（LFQA）。其次，通过引入多文章依赖的答案设计，该数据集推动了模型跨文档信息合成能力的研究。此外，其严格的专家验证机制为生成答案的事实准确性评估提供了可靠标准，有助于减少幻觉现象。这些特性共同推动了企业级QA系统在检索精度和生成质量方面的研究进展。

实际应用

在实际应用中，WixQA直接服务于企业客户支持系统的优化与部署。电子商务平台可基于该数据集训练智能客服机器人，使其能够准确解答用户关于网站建设、支付配置等专业问题。其模拟对话数据集特别适用于优化聊天机器人的单轮响应质量，而合成数据集则为大规模模型预训练提供了丰富的领域语料。知识库与问答对的精确对应关系，使得企业能够持续监控和提升知识检索系统的实效性，最终改善终端用户的支持体验。

数据集最近研究