BrowseComp-Plus
收藏BrowseComp-Plus数据集概述
数据集简介
- 目的:评估深度研究系统,隔离检索器和LLM代理的影响,实现公平、透明和可重复的比较。
- 来源:基于OpenAI的BrowseComp,包含具有挑战性、需要推理的查询。
- 特点:
- 使用固定的、精选的约10万份网络文档作为语料库。
- 包含人类验证的证据文档和挖掘的困难负样本。
数据集下载
-
解密数据集: bash pip install datasets python scripts_build_index/decrypt_dataset.py --output data/browsecomp_plus_decrypted.jsonl --generate-tsv topics-qrels/queries.tsv
-
语料库下载: python from datasets import load_dataset ds = load_dataset("Tevatron/browsecomp-plus-corpus", split="train")
安装与依赖
- 环境管理工具:
uv(Python 3.10) - 依赖项:
flash-attn(用于faiss)- Java 21(通过conda或apt安装)
使用指南
-
预构建索引下载: bash bash scripts_build_index/download_indexes.sh
-
复现实验结果:参考
docs/目录中的指南。 -
自定义检索器:参考
docs/custom_retriever.md。
评估
-
结果格式: json { "query_id": str, "tool_call_counts": dict[str, int], "status": str, "retrieved_docids": list[str], "result": [{"type": "output_text", "output": str}] }
-
评估脚本: bash python scripts_evaluation/evaluate_run.py --input_dir runs/my_model
提交到排行榜
-
提交文件格式: json { "LLM": str, "Accuracy (%)": float, "Recall (%)": float, "avg_tool_stats": {"search": float}, "Calibration Error (%)": float, "Retriever": str, "Link": str, "Evaluation Date": str, "per_query_metrics": [...] }
-
提交方式:发送至
s42chen@uwaterloo.ca。
检索专用评估
- 评估命令: bash python -m pyserini.eval.trec_eval -c -m recall.5,100,1000 -m ndcg_cut.10 topics-qrels/qrel_evidence.txt {YOUR_TREC_RUN_FILE}
联系方式
- Zijian Chen: s42chen@uwaterloo.ca
- Xueguang Ma: x93ma@uwaterloo.ca
- Shengyao Zhuang: s.zhuang@uq.edu.au




