BrowseCompLongContext
收藏Hugging Face2025-08-08 更新2025-08-09 收录
下载链接:
https://huggingface.co/datasets/openai/BrowseCompLongContext
下载链接
链接失效反馈官方服务:
资源简介:
BrowseComp Long Context是一个基于BrowseComp的数据集,用于评估大型语言模型在从带噪声的数据上下文中检索相关信息的能力。该数据集将BrowseComp中的代理式问题回答任务转换成长上下文任务。对于BrowseComp子集中每个问题,附带了URL列表,每个URL都配有一个标记,指示网页内容是否为回答问题所必需或为补充信息/噪声。必需的URL由人工收集和审核,以确保它们对于回答原始问题是充分且必要的。额外的URL是通过搜索有助于回答原始问题的相关问题获得的。该数据集可以扩展到不同的上下文窗口,并提供了构建超过1m上下文窗口模型提示的可能性。这个评估任务之所以具有挑战性,是因为构造的提示基于大部分内容多少相关的真实数据,而不是数据量很大但相关性很小的广泛网络语料库。模型必须结合多片信息才能回答问题,信息的出现顺序可能与推理流程中的需求顺序不一致,模型还需要能够不被相关的额外信息所迷惑。上下文越长,任务越困难。
BrowseComp Long Context is a dataset built upon BrowseComp, intended to evaluate the capacity of large language models (LLMs) to retrieve pertinent information from noisy data contexts. This dataset transforms the proxy question answering task within the BrowseComp subset into a long-context benchmark task. For each question in the BrowseComp subset, a list of URLs is attached, with each URL paired with a tag indicating whether the corresponding webpage content is necessary for answering the question, supplementary information, or noise. The necessary URLs are manually collected and audited to guarantee that they are both sufficient and necessary for addressing the original question. Additional URLs are sourced by querying related questions that can assist in answering the original query. This dataset can be scaled across various context window sizes, and enables the development of model prompts with context windows exceeding 1 million tokens. This evaluation task is challenging, as the constructed prompts are based on real-world data where most content is moderately relevant, rather than large-scale but low-relevance broad web corpora. Models must integrate multiple pieces of information to answer the question; the order in which the information appears may not match the required sequence during the inference workflow, and models also need to avoid being misled by relevant supplementary information. The longer the context window, the more challenging the task becomes.
提供机构:
OpenAI
创建时间:
2025-08-07
搜集汇总
数据集介绍

构建方式
在信息检索与问答系统研究领域,BrowseCompLongContext数据集基于BrowseComp基准构建,专注于评估大语言模型在嘈杂长文本中检索关键信息的能力。该数据集从BrowseComp中选取问题子集,为每个问题附加一系列URL链接,并通过人工标注区分必需信息与补充内容或噪声。必需URL经过人工审核确保充分必要,补充URL则通过相关搜索获取,从而构建出既真实又具有挑战性的上下文环境。
使用方法
使用该数据集时,需通过提供的解密函数加载数据,获取问题、答案及URL列表。提示词构建过程采用动态页面适配策略,根据token预算智能分配必需与补充页面的内容,并通过随机打乱页面顺序增加挑战性。评估方法延续BrowseComp的标准,采用模型提示模板进行自动化评分,确保结果的一致性与可比性。需要注意的是,网页抓取方法的实现质量可能影响基准结果,建议在不同运行中保持一致性。
背景与挑战
背景概述
BrowseCompLongContext数据集由OpenAI研究团队基于BrowseComp基准于2023年构建,旨在评估大语言模型在长上下文环境中从噪声数据中检索关键信息的能力。该数据集将原始BrowseComp中的智能体问答任务转化为长上下文任务,通过人工标注确保必需URL的充分性和必要性,同时引入补充性URL作为干扰项。这一设计显著提升了模型在真实网络环境下的信息筛选与整合能力,对推动长文本理解与推理研究具有重要价值。
当前挑战
该数据集核心挑战在于解决长上下文环境下的多源信息整合问题:模型需在大量相关性各异的文本中精确识别关键信息,并克服信息出现顺序与推理逻辑不匹配的困难。构建过程中面临标注一致性保障、噪声数据比例平衡及超长上下文提示词工程等挑战,尤其需要确保人工标注的必需URL能完整覆盖问题答案,同时保持补充URL的语义相关性以模拟真实网络环境。
常用场景
经典使用场景
在长上下文语言模型评估领域,BrowseComp Long Context数据集被广泛用于测试模型从噪声数据中检索关键信息的能力。研究者通过构建包含必需网页和补充信息的混合上下文,模拟真实网络环境中的信息检索场景,评估模型在超长文本中定位、整合并提取答案的综合性能。
解决学术问题
该数据集有效解决了长上下文建模中的核心学术问题:如何提升模型在信息冗余环境下的精确检索能力。通过提供人工标注的必需与附加网址对照,它为研究模型抗噪声干扰、多源信息融合及推理链构建提供了标准化测试基准,推动了长上下文理解技术的发展。
实际应用
实际应用中,该数据集为搜索引擎优化、智能问答系统和文档分析工具提供了重要的性能验证平台。企业可借助其评估产品在处理真实网络数据时的准确性与鲁棒性,特别是在需要从海量相关但不完全必要的信息中快速提取关键答案的商业场景中。
数据集最近研究
最新研究方向
在长上下文语言模型评估领域,BrowseCompLongContext数据集正推动对模型信息检索与推理能力的深度探索。该数据集通过构建包含必需信息与噪声干扰的真实网络文本环境,要求模型在超长上下文窗口中精准定位关键信息并完成多步推理。当前研究聚焦于模型对语义相关但逻辑无序内容的整合能力,特别是在处理百万级token上下文时的抗干扰性能与跨文档推理机制。这一方向直接关联到增强检索增强生成系统在复杂信息环境中的实用性,为突破现有模型上下文长度限制提供了重要基准。
以上内容由遇见数据集搜集并总结生成



