Web24 Dataset
收藏github2024-12-27 更新2024-12-30 收录
下载链接:
https://github.com/chuanruihu/Level-Navi-Agent-Search
下载链接
链接失效反馈官方服务:
资源简介:
为了全面评估各种模型在网络搜索任务中的表现,我们提供了一个开源数据集Web24 Dataset。我们的数据集总样本数为481,所有问题来自五个主要领域:金融、游戏、体育、电影和事件。我们的分类来自人们通常在互联网上搜索的场景。为了避免模型内部知识对框架的干扰,我们的数据集主要来源是新闻(2024年12月之前),并确保有可信的信息来源链接。问题分为简单、条件、比较和多跳,涵盖了多种提问场景。
To comprehensively evaluate the performance of various models on web search tasks, we present an open-source dataset, the Web24 Dataset. The dataset contains a total of 481 samples, with all questions sourced from five core domains: finance, gaming, sports, movies, and events. The question categories are derived from scenarios where people typically conduct web searches. To eliminate interference from the models' internal knowledge, the dataset is primarily sourced from news articles published before December 2024, with credible source links provided for each entry. Questions are categorized into four types: simple, conditional, comparative, and multi-hop, covering diverse question-asking scenarios.
创建时间:
2024-12-18
原始信息汇总
Level-Navi Agent 数据集概述
数据集简介
Level-Navi Agent 是一个开源、通用的网页搜索代理框架,支持部署任何开源或闭源模型。该代理能够分解和理解复杂问题,逐步在互联网上搜索信息,直到能够回答用户的原始问题。
数据集详情
- 数据集名称: Web24 Dataset
- 样本数量: 481
- 数据来源: 新闻(2024年12月之前)
- 数据领域: 金融、游戏、体育、电影、事件
- 问题类型: 简单问题、条件问题、比较问题、多跳问题
数据集特点
- 分类依据: 基于人们通常在互联网上搜索的场景
- 信息源: 确保有可信的信息源链接
- 问题覆盖: 涵盖多种提问场景
模型测试结果
以下是一些模型在Web24数据集上的测试结果:
| 模型 | Few-shot | $S_{final}$ | $S_{co}$ | $S_{rele}$ | $S_{simi}$ | $S_c$ | 通过率 |
|---|---|---|---|---|---|---|---|
| Internlm2.5-7B | zero-shot | 49.48 | 0.47 | 0.81 | 0.56 | 2.62 | 0.92 |
| three-shot | 49.31 | 0.47 | 0.80 | 0.56 | 2.65 | 0.95 | |
| Internlm2.5-20B | zero-shot | 55.02 | 0.57 | 0.80 | 0.57 | 3.62 | 0.93 |
| three-shot | 55.43 | 0.57 | 0.80 | 0.57 | 2.69 | 0.97 | |
| GLM-4-9B | zero-shot | 63.25 | 0.66 | 0.83 | 0.67 | 2.16 | 0.94 |
| three-shot | 43.43 | 0.37 | 0.81 | 0.56 | 2.69 | 0.92 | |
| Qwen2.5-3B | zero-shot | 60.17 | 0.62 | 0.84 | 0.64 | 2.56 | 0.85 |
| three-shot | 60.45 | 0.63 | 0.84 | 0.59 | 2.12 | 0.86 | |
| Qwen2.5-7B | zero-shot | 63.12 | 0.65 | 0.85 | 0.60 | 1.44 | 0.99 |
| three-shot | 65.84 | 0.70 | 0.84 | 0.62 | 1.64 | 1.00 | |
| Qwen2.5-14B | zero-shot | 68.34 | 0.75 | 0.84 | 0.61 | 1.84 | 0.99 |
| three-shot | 68.39 | 0.75 | 0.84 | 0.61 | 1.81 | 1.00 | |
| Llama3.1-8B | zero-shot | 37.02 | 0.30 | 0.74 | 0.51 | 3.60 | 0.88 |
| three-shot | 32.45 | 0.27 | 0.61 | 0.46 | 3.89 | 0.93 |
引用
如果本项目对您的研究或工作有所启发,请按以下格式引用:
@misc{202412.00330Level, author = {Chuanrui Hu and Shichong Xie and Baoxin Wang and Bin Chen and Xiaofeng Cong and Jun Zhang}, title = {Level-Navi Agent: A Framework and benchmark for Chinese Web Search Agents}, year = {2024}, eprint = {202412.00330}, url = {https://chinaxiv.org/abs/202412.00330} }
搜集汇总
数据集介绍

构建方式
Web24数据集的构建旨在全面评估各类模型在网页搜索任务中的表现。该数据集包含481个样本,问题来源于金融、游戏、体育、电影和事件五大领域,涵盖了人们日常网络搜索的常见场景。为了避免模型内部知识对框架的干扰,数据集主要基于2024年12月之前的新闻报道,并确保每个问题都有可信的信息来源链接。问题类型分为简单、条件、比较和多跳,以覆盖多样化的提问场景。
特点
Web24数据集的特点在于其多样性和实用性。数据集涵盖了多个热门领域,确保了问题的广泛性和代表性。每个问题都附有可信的信息来源链接,增强了数据的可靠性和可验证性。此外,问题类型的多样性使得数据集能够全面评估模型在不同搜索场景下的表现,从而为模型优化提供了丰富的测试环境。
使用方法
使用Web24数据集时,用户首先需要克隆项目并设置Python 3.11的虚拟环境。接着,安装项目依赖并配置Bing API密钥。用户可以选择API模式或本地模式进行部署,具体取决于所使用的模型。在本地模式下,用户需使用vllm部署模型并启动服务。最后,通过运行示例代码进行测试,评估模型在数据集上的表现。整个过程简洁明了,便于用户快速上手。
背景与挑战
背景概述
Web24数据集是由Level-Navi Agent项目团队于2024年创建的一个开源数据集,旨在全面评估各类模型在网页搜索任务中的表现。该数据集由481个样本组成,涵盖了金融、游戏、体育、电影和事件五大领域,问题类型包括简单、条件、比较和多跳问题,模拟了用户在互联网上的常见搜索场景。数据集的主要来源是2024年12月之前的新闻,确保每个问题都有可信的信息源链接。该数据集的发布为中文网页搜索代理的研究提供了重要的基准,推动了相关领域的技术发展。
当前挑战
Web24数据集在构建和应用过程中面临多重挑战。首先,网页搜索任务本身具有复杂性,模型需要具备分解和理解复杂问题的能力,并能够通过迭代搜索逐步获取信息,最终生成准确的答案。其次,数据集的构建需要确保问题的多样性和代表性,同时避免模型内部知识的干扰,这对数据来源的选择和问题设计提出了较高要求。此外,评估模型的性能时,如何设计合理的评价指标以全面反映模型在搜索任务中的表现,也是一个亟待解决的问题。这些挑战共同构成了Web24数据集在研究和应用中的核心难点。
常用场景
经典使用场景
Web24数据集在中文网络搜索代理领域具有广泛的应用,特别是在评估不同模型在复杂问题分解和信息检索任务中的表现。该数据集涵盖了金融、游戏、体育、电影和事件五大领域,问题类型包括简单、条件、比较和多跳问题,能够全面模拟用户在互联网上的搜索行为。通过该数据集,研究人员可以深入分析模型在处理多步骤搜索任务时的性能,从而优化搜索代理的算法和框架。
解决学术问题
Web24数据集有效解决了中文网络搜索代理领域中的多个学术研究问题。首先,它提供了一个标准化的评估平台,使得不同模型在相同任务下的性能可以公平比较。其次,数据集中的多跳问题和复杂条件问题挑战了模型的信息整合和推理能力,推动了模型在复杂搜索任务中的技术进步。此外,数据集的构建基于真实新闻数据,确保了问题的时效性和可信度,为模型的实际应用提供了坚实的基础。
衍生相关工作
Web24数据集的发布催生了一系列相关研究工作,特别是在中文网络搜索代理的算法优化和性能评估方面。基于该数据集,研究人员提出了多种改进模型,如结合强化学习和多步推理的搜索代理框架。此外,该数据集还激发了在跨领域信息整合和复杂问题求解方面的研究,推动了中文网络搜索技术的进一步发展。相关研究成果不仅提升了搜索代理的智能化水平,也为其他语言和领域的搜索技术提供了借鉴。
以上内容由遇见数据集搜集并总结生成



