Search Arena
收藏arXiv2025-06-06 更新2025-06-07 收录
下载链接:
https://arxiv.org/abs/2506.05334v1
下载链接
链接失效反馈官方服务:
资源简介:
Search Arena 是一个由 crowd-sourced 的大型-scale 人类偏好数据集,包含超过 24,000 对多轮用户与搜索增强语言模型的交互。数据集涵盖了多样化的意图和语言,并包含约 12,000 人对偏好的投票。数据集旨在解决现有数据集规模有限、范围狭窄的问题,为研究搜索增强语言模型提供支持。数据集可用于评估不同设置下模型的性能,并支持未来相关研究。
Search Arena is a large-scale crowdsourced human preference dataset containing over 24,000 pairs of multi-turn interactions between users and search-augmented language models. The dataset covers diverse intents and languages, and includes approximately 12,000 human preference votes. It aims to address the limitations of existing datasets in terms of limited scale and narrow scope, providing support for research on search-augmented language models. Moreover, the dataset can be used to evaluate model performance under various settings and support future relevant research.
提供机构:
加州大学伯克利分校
创建时间:
2025-06-06
原始信息汇总
数据集概述:Search Arena: Analyzing Search-Augmented LLMs
基本信息
- 标题: Search Arena: Analyzing Search-Augmented LLMs
- 作者: Mihran Miroyan, Tsung-Han Wu, Logan King, Tianle Li, Jiayi Pan, Xinyan Hu, Wei-Lin Chiang, Anastasios N. Angelopoulos, Trevor Darrell, Narges Norouzi, Joseph E. Gonzalez
- 提交日期: 2025年6月5日
- arXiv标识符: arXiv:2506.05334v1 [cs.CL]
- DOI: https://doi.org/10.48550/arXiv.2506.05334
数据集描述
- 规模: 超过24,000对多轮用户交互
- 内容: 包含搜索增强LLMs的用户偏好数据,涵盖多样化的意图和语言
- 特点:
- 包含完整的系统追踪记录
- 约12,000个人类偏好投票
- 分析发现:
- 用户偏好受引用数量影响,即使引用内容不直接支持相关声明
- 用户偏好因引用来源而异,社区驱动平台更受青睐
- 静态百科全书来源并不总是适当和可靠
实验分析
- 跨领域分析:
- 在通用聊天环境中测试搜索增强LLMs
- 在搜索密集型环境中测试传统LLMs
- 主要发现:
- 网络搜索在非搜索环境中不会降低性能,甚至可能提高性能
- 在搜索环境中,仅依赖模型的参数知识会显著影响质量
资源链接
- 数据集: https://example.com (原文中未提供具体URL,仅显示占位符)
- 代码: https://example.com (原文中未提供具体URL,仅显示占位符)
搜集汇总
数据集介绍

构建方式
Search Arena数据集通过众包方式构建,收集了超过24,000对多轮用户与搜索增强型大语言模型(LLM)的交互数据。数据收集过程通过一个开放的评估平台进行,平台展示了匿名模型输出的对比结果,并收集人类偏好投票。数据集涵盖了多样化的用户意图和语言,包括71种语言和11%的多语言提示,同时包含了约12,000个人类偏好投票。
使用方法
Search Arena数据集可用于评估搜索增强型LLM在不同设置下的表现,包括通用聊天环境和搜索密集型环境。研究人员可以利用数据集中的多轮对话和人类偏好投票,分析模型在提供实时、可验证回答方面的能力。此外,数据集支持跨领域分析,帮助理解用户如何与搜索增强型LLM互动及其期望。
背景与挑战
背景概述
Search Arena是由UC Berkeley的研究团队于2025年6月推出的一个大规模、众包的人类偏好数据集,专注于分析搜索增强的大型语言模型(LLMs)。该数据集包含超过24,000对多轮用户与搜索增强LLMs的交互,涵盖多种意图和语言,并包含约12,000个人类偏好投票。Search Arena的创建旨在解决现有数据集在规模、范围和多样性上的局限性,特别是在静态、单轮、事实核查问题上的不足。该数据集的发布为研究搜索增强LLMs的用户交互行为提供了重要资源,并对相关领域的研究产生了深远影响。
当前挑战
Search Arena面临的挑战主要包括两个方面:1) 领域问题的挑战:搜索增强LLMs需要处理多样化的用户意图,如事实查找、信息合成、分析和推荐等,这对模型的检索能力、推理能力和对话能力提出了更高要求。2) 构建过程中的挑战:数据集的构建需要处理多语言、多轮对话的复杂性,确保人类偏好投票的准确性和代表性,以及解决引用内容与生成声明之间的正确归因问题。此外,用户偏好可能受到引用数量和来源的影响,即使引用内容并不直接支持相关声明,这揭示了感知可信度与实际可信度之间的差距。
常用场景
经典使用场景
Search Arena数据集在搜索增强型大型语言模型(LLMs)的研究中扮演了关键角色,尤其是在多轮对话和人类偏好分析方面。该数据集通过收集超过24,000次多轮用户交互和12,000次人类偏好投票,为研究者提供了一个丰富的资源,用于评估模型在信息检索、事实核查和对话生成中的表现。其多语言和多样化的意图分布使得该数据集成为评估模型在真实世界场景中适应性的理想选择。
解决学术问题
Search Arena解决了搜索增强型LLMs研究中数据规模有限和范围狭窄的问题。传统数据集如SimpleQA和BrowseComp主要关注单轮、静态的事实核查问题,而Search Arena通过提供多轮对话和多样化意图的数据,填补了这一空白。此外,该数据集揭示了用户偏好与引用数量之间的关系,即使引用内容并未直接支持相关声明,这一发现为研究模型可信度和用户感知提供了新的视角。
实际应用
Search Arena的实际应用场景包括搜索引擎优化、智能助手开发和内容推荐系统。通过分析用户与搜索增强型LLMs的交互数据,开发者可以优化模型的检索和生成能力,提升用户体验。例如,该数据集显示用户倾向于引用社区驱动平台的内容,这一发现可以指导开发者优先整合此类来源,以提高模型的响应质量和用户满意度。
数据集最近研究
最新研究方向
Search Arena数据集作为首个大规模、众包的人类偏好数据集,专注于分析检索增强型大语言模型(Search-Augmented LLMs)的多轮用户交互行为。该数据集通过覆盖71种语言、24,000组对话及12,000条人类偏好投票,揭示了用户偏好与引用数量、来源可信度的关联性,同时发现模型生成的引用内容与声称之间的不一致性可能误导用户对可信度的判断。前沿研究聚焦于三个方向:一是探索检索增强模型在开放域对话中如何平衡事实性与推理能力;二是分析跨场景下(如常规聊天与搜索密集型任务)模型性能的迁移性,发现检索功能在非搜索场景中可能提升表现,而仅依赖参数化知识的模型在搜索任务中显著受限;三是针对引用机制的可信度问题,提出改进引用归因的新方法,以解决用户过度依赖引用数量而非内容支持的认知偏差。该数据集为构建更透明、可信的检索增强系统提供了实证基础,并推动了人机交互领域对动态信息整合与用户认知机制的研究。
相关研究论文
- 1Search Arena: Analyzing Search-Augmented LLMs加州大学伯克利分校 · 2025年
以上内容由遇见数据集搜集并总结生成



