Wiki Live Challenge
收藏Wiki Live Challenge 数据集概述
数据集基本信息
- 数据集名称: Wiki Live Challenge
- 主要用途: 评估深度研究智能体生成维基百科质量文章的能力
- 核心特点: 使用持续更新的实时维基百科文章作为基准,确保评估的挑战性和时效性
- 论文地址: https://arxiv.org/abs/2602.01590
- 数据集主页: http://agentresearchlab.org/benchmarks/wiki-live-challenge/index.html#home
- Hugging Face 数据集地址: https://huggingface.co/datasets/muset-ai/Wiki_Live_Challenge
- 许可证: MIT
基准构建方法
实时任务收集
数据集从维基百科优质条目中构建评估任务,这些条目经过维基百科编辑审核并符合严格的质量标准。
- 收集窗口: 采用六个月滚动窗口,持续收集新晋的优质条目。
- 筛选标准: 仅包含符合维基百科优质条目标准的文章,要求具有高信息含量、广泛的可验证引用来源以及经过专家评审的质量。
- 类别多样性: 任务涵盖多个维基百科类别以确保全面覆盖。
评估维度提取
从维基百科优质条目标准中提取出两大评估维度:
- Wiki Writing (写作质量): 评估文章生成质量,包含39项具体标准。
- Wiki Fact (事实准确性): 评估信息准确性和引用质量。
评估框架
📝 Wiki Writing (基于标准的写作质量评估)
通过将生成的文章与维基百科优质条目进行对比来评估文章质量。
- 评估方法: 基于大语言模型的评判员根据每项标准进行比较。
- 评估标准 (共39项):
- 📚 文笔良好 (21项): 百科全书风格、导言部分质量、需注意的用词等。
- 🔍 覆盖广泛 (8项): 主题覆盖度、焦点、结构完整性。
- ⚖️ 中立 (10项): 公平的观点、避免编辑偏见、给予适当权重。
- 核心指标: 生成文章在各项标准上优于维基百科文章的百分比(胜率)。
🔗 Wiki Fact (事实准确性评估)
通过两个子维度评估信息准确性和引用质量:
- 可验证性: 衡量生成文章与维基百科文章之间陈述的一致性。
- 流程: 提取事实陈述 → 语义匹配 → 大语言模型验证。
- 指标: 覆盖率、支持率、冲突率。
- 引用: 验证陈述是否得到其引用来源的支持。
- 流程: 获取引用URL内容 → 大语言模型验证支持关系。
- 指标: 引用支持率、冲突率。
数据集内容与结构
实时基准数据集
项目支持多个随时间演进的实时评估基准:
2025_Mar_Nov: 初始基准,包含2025年3月至11月的维基百科文章(100篇)。- 未来的基准将按
<年份>_<起始月份>_<结束月份>格式添加。
项目目录结构
Wiki_Live_Challenge/ ├── data/<benchmark_id>/ # 例如:2025_Mar_Nov │ ├── wiki_data/cleaned_data/ # 维基百科基准数据 │ │ ├── article/ # 维基百科Markdown文件 │ │ └── statement/ # 维基百科陈述JSON文件 │ └── test_data/ # 生成的文章数据 │ ├── agencies.json # 智能体注册表 │ └── <agency>/ # 每个智能体的数据 │ ├── md_data/ # Markdown格式文章 │ └── json_data/ # 处理后的JSON文件 ├── evaluation/ # 评估模块 │ ├── wiki_writing.py # 写作评估 │ └── wiki_fact.py # 事实评估 └── scripts/ # 命令行工具
生成数据的JSON格式
json { "query": { "pages": { "<page_id>": { "title": "文章标题", "extract": "不含引用的干净文章文本", "citation_urls": { "1": "https://example.com/source1" }, "statements": [ { "fact": "提取的事实陈述", "ref_idx": "1", "url": "https://example.com/source1" } ], "citation_contents": { "1": { "url": "https://example.com/source1", "title": "页面标题", "content": "获取的页面内容..." } }, "source_file": "my_agency/md_data/Article.md" } } } }
使用流程
前置要求
- Python 3.9+
- 大语言模型API密钥(用于陈述提取和评估)
- OpenAI API密钥(用于可验证性评估中的文本嵌入)
- Jina API密钥(用于引用评估中的网页内容获取)
主要步骤
- 注册智能体: 在
agencies.json中注册新模型/智能体。 - 准备Markdown文件: 将生成的Markdown文章放入对应的
md_data/目录。 - 生成JSON数据: 运行脚本提取陈述并获取引用内容。
- 运行评估: 执行评估脚本,可选择评估全部或特定维度(写作、可验证性、引用)。
评估命令示例
bash
列出可用的基准和智能体
python scripts/run_evaluation.py list -b 2025_Mar_Nov
运行完整评估
python scripts/run_evaluation.py all -b 2025_Mar_Nov -a my_agency -o results/my_agency/
运行特定维度评估
python scripts/run_evaluation.py writing -b 2025_Mar_Nov -a my_agency -o results/
评估结果输出
评估结果按以下结构组织:
results/my_agency/ ├── writing/ # 写作评估结果及汇总 ├── verifiability/ # 可验证性评估结果及汇总 └── citation/ # 引用评估结果及汇总
每个维度目录下包含每篇文章的详细结果JSON文件和一个汇总指标(_summary.json)文件。




