five

WebWalkerQA

收藏
github2025-01-14 更新2025-01-15 收录
下载链接:
https://github.com/Alibaba-NLP/WebWalker
下载链接
链接失效反馈
官方服务:
资源简介:
WebWalkerQA数据集由680个查询组成,涵盖四个真实场景,涉及超过1373个网页。该数据集旨在挑战长上下文网页导航任务,并提出了一个多代理框架用于有效的内存管理。

The WebWalkerQA dataset consists of 680 queries, covering four real-world scenarios and involving over 1,373 web pages. This dataset is designed to challenge long-context web navigation tasks, and proposes a multi-agent framework for efficient memory management.
创建时间:
2025-01-09
原始信息汇总

WebWalker: Benchmarking LLMs in Web Traversal 数据集概述

数据集简介

  • 数据集名称: WebWalkerQA
  • 数据集用途: 用于评估大型语言模型(LLMs)在网页遍历任务中的表现。
  • 数据集规模: 包含680个查询,覆盖1373个网页,涵盖四个真实场景。
  • 数据集特点: 具有挑战性,适用于信息检索任务,页面内的垂直探索有助于提升性能。

数据集结构

  • 数据格式: JSON
  • 示例数据: json { "Question": "When is the paper submission deadline for the ACL 2025 Industry Track, and what is the venue address for the conference?", "Answer": "The paper submission deadline for the ACL 2025 Industry Track is March 21, 2025. The conference will be held in Brune-Kreisky-Platz 1.", "Root_Url": "https://2025.aclweb.org/", "Info": { "Hop": "multi-source", "Domain": "Conference", "Language": "English", "Difficulty_Level": "Medium", "Source_Website": [ "https://2025.aclweb.org/calls/industry_track/", "https://2025.aclweb.org/venue/" ], "Golden_Path": ["root->call>student_research_workshop", "root->venue"] } }

数据集获取

  • 数据集地址: HuggingFace Datasets

  • 加载代码: python from datasets import load_dataset ds = load_dataset("callanwu/WebWalkerQA", split="main")

  • 额外数据: 包含约14k个未经过人工验证的银质QA对,可通过将split参数设置为silver加载。

性能评估

  • Web Agents性能: 提供了Web Agents在数据集上的性能结果。
  • RAG-Systems性能: 提供了RAG-Systems在数据集上的性能结果。
  • Leaderboard: HuggingFace Leaderboard

依赖与运行

  • 依赖安装: bash conda create -n webwalker python=3.10 git clone https://github.com/alibaba-nlp/WebWalker.git cd WebWalker pip install -e . pip install -r requirement.txt crawl4ai-setup crawl4ai-doctor

  • 本地运行Demo: bash export OPEN_AI_API_KEY=YOUR_API_KEY export OPEN_AI_API_BASE_URL=YOUR_API_BASE_URL cd src streamlit run app.py

  • RAG-System运行: bash cd src python rag_system.py --api_name [API_NAME] --output_file [OUTPUT_PATH]

引用

  • 引用格式: bigquery @misc{wu2025webwalker, title={WebWalker: Benchmarking LLMs in Web Traversal}, author={Jialong Wu and Wenbiao Yin and Yong Jiang and Zhenglin Wang and Zekun Xi and Runnan Fang and Deyu Zhou and Pengjun Xie and Fei Huang}, year={2025}, eprint={2501.07572}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2501.07572}, }
搜集汇总
数据集介绍
main_image_url
构建方式
WebWalkerQA数据集的构建基于四个真实场景中的680个查询,涵盖了1373个网页。该数据集通过多代理框架进行内存管理,以应对网页导航任务中长上下文的需求。每个数据项以JSON格式组织,包含问题、答案、根URL以及相关信息,如跳转次数、领域、语言、难度级别、来源网站和黄金路径等。此外,数据集还包含约14k个未经人工验证的银级QA对。
特点
WebWalkerQA数据集的特点在于其多样性和挑战性。数据集涵盖了多个领域和语言,问题难度从简单到复杂不等,适合用于测试和评估大型语言模型在网页导航和信息检索任务中的表现。数据集中的每个问题都附有详细的元数据,便于研究人员进行深入分析和模型优化。此外,数据集还提供了黄金路径信息,帮助模型更好地理解网页结构和导航逻辑。
使用方法
WebWalkerQA数据集的使用方法简单直观。用户可以通过Hugging Face的`datasets`库加载数据集,代码示例如下:`from datasets import load_dataset; ds = load_dataset('callanwu/WebWalkerQA', split='main')`。此外,用户还可以加载银级数据集,只需将`split`参数改为`silver`。数据集支持多种应用场景,如网页导航、信息检索和问答系统等。用户可以通过提交模型结果到Hugging Face的Leaderboard,与其他研究者进行性能对比。
背景与挑战
背景概述
WebWalkerQA数据集由阿里巴巴集团的同义实验室(Tongyi Lab)于2025年推出,旨在评估大型语言模型(LLMs)在网页遍历任务中的表现。该数据集由Jialong Wu等研究人员构建,涵盖了四个真实场景中的680个查询,涉及1373个网页。WebWalkerQA的核心研究问题在于如何通过多智能体框架有效管理长上下文信息,以提升模型在复杂网页导航任务中的表现。该数据集的推出为自然语言处理领域中的网页信息检索和导航任务提供了新的基准,推动了相关技术的发展。
当前挑战
WebWalkerQA数据集在构建和应用过程中面临多重挑战。首先,网页导航任务通常涉及长上下文信息的处理,这对模型的记忆管理和推理能力提出了较高要求。其次,数据集的构建需要从多个网页中提取和整合信息,确保数据的多样性和复杂性,这对数据采集和标注工作提出了挑战。此外,评估模型在真实场景中的表现时,如何准确衡量模型在信息检索和导航任务中的性能,也是一个亟待解决的问题。这些挑战不仅影响了数据集的构建过程,也对后续模型的优化和应用提出了更高的要求。
常用场景
经典使用场景
WebWalkerQA数据集主要用于评估大型语言模型(LLMs)在网页遍历任务中的表现。该数据集包含680个查询,覆盖了四个真实场景的1373个网页,旨在模拟用户在复杂网页结构中的信息检索行为。通过多代理框架,WebWalkerQA能够有效管理长上下文任务,帮助研究人员深入理解模型在垂直探索和信息检索中的表现。
实际应用
WebWalkerQA在实际应用中具有广泛的前景,特别是在智能助手和自动化信息检索系统中。通过模拟真实用户的网页浏览行为,该数据集能够帮助开发更智能的网页导航工具,提升用户体验。此外,WebWalkerQA还可用于优化搜索引擎的垂直探索能力,提高信息检索的准确性和效率。
衍生相关工作
WebWalkerQA的推出催生了一系列相关研究,特别是在多代理框架和长上下文管理领域。基于该数据集的研究工作进一步推动了大型语言模型在网页导航任务中的应用,如ReACT、Qwen-Agents和LangChain等项目。这些工作不仅验证了WebWalkerQA的有效性,还为未来的研究提供了新的方向和工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作