Wiki Live Challenge

github2026-02-06 更新2026-02-07 收录

下载链接：

https://github.com/WangShao2000/Wiki_Live_Challenge

下载链接

链接失效反馈

官方服务：

资源简介：

Wiki Live Challenge 是一个用于评估深度研究代理（DRAs）生成维基百科质量文章能力的基准。与静态基准不同，Wiki Live Challenge 使用实时更新的维基百科文章作为基准，确保评估随着时间的推移保持挑战性和相关性。关键特征包括：实时基准、多维评估和基于维基百科优质文章（GA）标准的评估。

The Wiki Live Challenge is a benchmark developed to evaluate the capability of Deep Research Agents (DRAs) to generate Wikipedia-quality articles. Unlike static benchmarks, Wiki Live Challenge employs real-time updated Wikipedia articles as its benchmark corpus, ensuring that the evaluation remains challenging and contextually relevant over time. Its key features include real-time benchmarking, multi-dimensional evaluation, and assessment grounded in the Wikipedia Good Article (GA) criteria.

创建时间：

2026-01-23

原始信息汇总

Wiki Live Challenge 数据集概述

数据集基本信息

数据集名称: Wiki Live Challenge
主要用途: 评估深度研究智能体生成维基百科质量文章的能力
核心特点: 使用持续更新的实时维基百科文章作为基准，确保评估的挑战性和时效性
论文地址: https://arxiv.org/abs/2602.01590
数据集主页: http://agentresearchlab.org/benchmarks/wiki-live-challenge/index.html#home
Hugging Face 数据集地址: https://huggingface.co/datasets/muset-ai/Wiki_Live_Challenge
许可证: MIT

基准构建方法

实时任务收集

数据集从维基百科优质条目中构建评估任务，这些条目经过维基百科编辑审核并符合严格的质量标准。

收集窗口: 采用六个月滚动窗口，持续收集新晋的优质条目。
筛选标准: 仅包含符合维基百科优质条目标准的文章，要求具有高信息含量、广泛的可验证引用来源以及经过专家评审的质量。
类别多样性: 任务涵盖多个维基百科类别以确保全面覆盖。

评估维度提取

从维基百科优质条目标准中提取出两大评估维度：

Wiki Writing (写作质量): 评估文章生成质量，包含39项具体标准。
Wiki Fact (事实准确性): 评估信息准确性和引用质量。

评估框架

📝 Wiki Writing (基于标准的写作质量评估)

通过将生成的文章与维基百科优质条目进行对比来评估文章质量。

评估方法: 基于大语言模型的评判员根据每项标准进行比较。
评估标准 (共39项):
- 📚 文笔良好 (21项): 百科全书风格、导言部分质量、需注意的用词等。
- 🔍 覆盖广泛 (8项): 主题覆盖度、焦点、结构完整性。
- ⚖️ 中立 (10项): 公平的观点、避免编辑偏见、给予适当权重。
核心指标: 生成文章在各项标准上优于维基百科文章的百分比（胜率）。

🔗 Wiki Fact (事实准确性评估)

通过两个子维度评估信息准确性和引用质量：

可验证性: 衡量生成文章与维基百科文章之间陈述的一致性。
- 流程: 提取事实陈述 → 语义匹配 → 大语言模型验证。
- 指标: 覆盖率、支持率、冲突率。
引用: 验证陈述是否得到其引用来源的支持。
- 流程: 获取引用URL内容 → 大语言模型验证支持关系。
- 指标: 引用支持率、冲突率。

数据集内容与结构

实时基准数据集

项目支持多个随时间演进的实时评估基准：

2025_Mar_Nov: 初始基准，包含2025年3月至11月的维基百科文章（100篇）。
未来的基准将按 <年份>_<起始月份>_<结束月份> 格式添加。

项目目录结构

Wiki_Live_Challenge/ ├── data/<benchmark_id>/ # 例如：2025_Mar_Nov │ ├── wiki_data/cleaned_data/ # 维基百科基准数据 │ │ ├── article/ # 维基百科Markdown文件 │ │ └── statement/ # 维基百科陈述JSON文件 │ └── test_data/ # 生成的文章数据 │ ├── agencies.json # 智能体注册表 │ └── <agency>/ # 每个智能体的数据 │ ├── md_data/ # Markdown格式文章 │ └── json_data/ # 处理后的JSON文件 ├── evaluation/ # 评估模块 │ ├── wiki_writing.py # 写作评估 │ └── wiki_fact.py # 事实评估 └── scripts/ # 命令行工具

生成数据的JSON格式

json { "query": { "pages": { "<page_id>": { "title": "文章标题", "extract": "不含引用的干净文章文本", "citation_urls": { "1": "https://example.com/source1" }, "statements": [ { "fact": "提取的事实陈述", "ref_idx": "1", "url": "https://example.com/source1" } ], "citation_contents": { "1": { "url": "https://example.com/source1", "title": "页面标题", "content": "获取的页面内容..." } }, "source_file": "my_agency/md_data/Article.md" } } } }

使用流程

前置要求

Python 3.9+
大语言模型API密钥（用于陈述提取和评估）
OpenAI API密钥（用于可验证性评估中的文本嵌入）
Jina API密钥（用于引用评估中的网页内容获取）

主要步骤

注册智能体: 在 agencies.json 中注册新模型/智能体。
准备Markdown文件: 将生成的Markdown文章放入对应的 md_data/ 目录。
生成JSON数据: 运行脚本提取陈述并获取引用内容。
运行评估: 执行评估脚本，可选择评估全部或特定维度（写作、可验证性、引用）。

评估命令示例

bash

列出可用的基准和智能体

python scripts/run_evaluation.py list -b 2025_Mar_Nov

运行完整评估

python scripts/run_evaluation.py all -b 2025_Mar_Nov -a my_agency -o results/my_agency/

运行特定维度评估

python scripts/run_evaluation.py writing -b 2025_Mar_Nov -a my_agency -o results/

评估结果输出

评估结果按以下结构组织：

results/my_agency/ ├── writing/ # 写作评估结果及汇总 ├── verifiability/ # 可验证性评估结果及汇总 └── citation/ # 引用评估结果及汇总

每个维度目录下包含每篇文章的详细结果JSON文件和一个汇总指标（_summary.json）文件。

搜集汇总

数据集介绍

构建方式

在人工智能研究领域，评估深度研究代理生成高质量百科全书式内容的能力，需要动态且权威的基准。Wiki Live Challenge 的构建巧妙地利用了维基百科的“优良条目”体系，该体系由社区编辑严格评审，代表了百科全书内容的最高质量标准。数据集通过一个持续滚动的六个月时间窗口，系统性地收集在此期间新晋或更新的优良条目，确保了评估任务始终涵盖最新的知识主题与事件。这一过程不仅筛选了符合维基百科严格标准的高信息密度、广泛引证且经过专家评审的文章，还特别注重了类别的多样性，以全面覆盖不同知识领域，从而为深度研究代理提供了一个既具时效性又具挑战性的评估环境。

使用方法

使用该数据集进行评估，需遵循一套结构化的流程。首先，用户需在项目中注册其模型或代理机构，并按照指定格式准备生成的维基百科风格文章。随后，通过项目提供的脚本工具对文章进行预处理，包括格式标准化、事实陈述提取以及引证内容获取。完成数据准备后，用户可调用集成的评估模块，从“维基写作”和“维基事实”两个维度对模型输出进行自动化评测。评估过程依赖大型语言模型作为评判者，对比生成文章与维基百科优良条目在各个准则上的表现，并计算支持率、冲突率、胜率等量化指标。最终，系统会生成详细的评估报告，为用户提供模型性能的全面洞察。

背景与挑战

背景概述

随着深度研究智能体在复杂知识生成任务中的广泛应用，对其能力进行系统性评估的需求日益迫切。Wiki Live Challenge 数据集应运而生，由 Agent Research Lab 的研究团队于2026年初正式发布，其核心研究问题聚焦于如何精准评估智能体生成维基百科级别高质量文章的能力。该数据集创新性地采用动态更新的维基百科优质条目作为基准，通过多维度的评估框架，包括文章写作质量与事实准确性，旨在推动深度研究智能体在信息完整性、学术严谨性及文本规范性方面的进步，对自然语言生成与知识工程领域的发展具有重要影响力。

当前挑战

Wiki Live Challenge 致力于解决深度研究智能体在生成百科全书式文本时所面临的核心挑战，即如何确保生成内容兼具学术权威性与叙事流畅性。构建过程中的主要挑战体现在数据源的动态性与评估标准的复杂性上：其一，数据集需持续追踪维基百科优质条目的更新，以维持评估的时效性与相关性，这对数据收集与验证流程提出了极高要求；其二，评估体系需严格遵循维基百科的优质条目标准，涵盖写作规范、内容广度与中立性等39项细则，同时还需设计自动化机制来验证事实陈述的可靠性与引文支持的有效性，这些都对评估方法的精确性与可扩展性构成了严峻考验。

常用场景

经典使用场景

在人工智能与自然语言处理领域，评估模型生成高质量、事实准确的百科全书式文本能力是一项核心挑战。Wiki Live Challenge 数据集通过引入动态更新的维基百科优质文章作为基准，为深度研究智能体提供了一个经典且持续演进的测试平台。该数据集最经典的使用场景在于系统性地评估智能体在撰写维基百科风格文章时的综合表现，涵盖写作风格、内容广度、中立性以及事实核查与引证支持等多个维度，从而推动生成式AI在长文本、高可靠性内容创作方面的研究进展。

解决学术问题

该数据集有效解决了生成式人工智能研究中关于内容质量与事实性评估的若干关键学术问题。传统静态基准难以反映知识的动态演进，而Wiki Live Challenge通过其“活体”特性，确保了评估任务与当前事件和知识状态同步，挑战模型处理新信息的能力。它系统化地定义了基于维基百科优质文章标准的评估框架，将主观的“文章质量”分解为可量化的39项写作准则和事实核查指标，为衡量模型在信息准确性、引证可靠性与内容中立性等方面的表现提供了严谨、可复现的学术基准，填补了高质量长文本生成评估领域的空白。

实际应用

超越纯学术研究，Wiki Live Challenge 数据集在多个实际应用场景中展现出重要价值。它可直接用于开发和优化各类自动化内容创作工具，例如辅助新闻编辑、生成企业知识库条目或创建教育科普材料，确保产出内容兼具专业性与可信度。同时，该基准可作为大型语言模型在事实性、可靠性和安全性方面进行对齐训练与持续评估的关键工具，帮助减少模型幻觉，提升其在搜索引擎增强生成、智能问答等实际产品中的实用性与用户信任。其引证验证模块也为构建下一代可信赖的信息检索与摘要系统提供了技术原型。

数据集最近研究