GameWikiSum

Name: GameWikiSum
Creator: 洛桑联邦理工学院人工智能实验室
Published: 2020-02-17 17:25:19
License: 暂无描述

arXiv2020-02-17 更新2024-06-21 收录

下载链接：

https://github.com/Diego999/GameWikiSum

下载链接

链接失效反馈

官方服务：

资源简介：

GameWikiSum是一个专为多文档摘要任务设计的大型数据集，由洛桑联邦理工学院人工智能实验室创建。该数据集包含14,652个样本，主要来源于专业视频游戏评论和维基百科的游戏玩法部分。数据集的创建过程涉及从Metacritic网站爬取专业评论，并通过一系列启发式规则匹配相应的维基百科页面。GameWikiSum的应用领域主要集中在视频游戏领域的多文档摘要，旨在通过整合多个来源的信息，生成关于游戏玩法的综合描述，以支持更复杂的模型训练和摘要生成技术的发展。

GameWikiSum is a large-scale dataset specifically designed for the multi-document summarization task, developed by the Artificial Intelligence Laboratory of École Polytechnique Fédérale de Lausanne. It comprises 14,652 samples primarily sourced from professional video game reviews and gameplay sections of Wikipedia. The dataset construction entails scraping professional reviews from the Metacritic website and matching corresponding Wikipedia pages via a set of heuristic rules. The primary application of GameWikiSum lies in multi-document summarization within the video game domain, where it aims to generate comprehensive gameplay descriptions by integrating information from diverse sources to support the training of more advanced models and the advancement of summarization generation technologies.

提供机构：

洛桑联邦理工学院人工智能实验室

创建时间：

2020-02-17

搜集汇总

数据集介绍

构建方式

在电子游戏领域，多文档摘要研究长期受限于数据集规模不足。GameWikiSum的构建巧妙利用了专业游戏评论与维基百科内容的互补性。数据集通过爬取Metacritic网站上的专业游戏评测，并结合对应游戏的维基百科页面中游戏玩法章节作为参考摘要。为确保数据质量，研究团队设计了启发式匹配规则，包括精确标题匹配、标签去除处理及扩展名映射，最终筛选出同时具备至少一篇评论与匹配维基百科页面的样本，形成包含14,652个样本的语料库。

特点

该数据集在规模与领域特性上具有显著优势。相较于传统新闻领域多文档摘要数据集，其样本量提升两个数量级，为复杂模型训练提供了充足数据支撑。输入文档由多篇长篇专业评测构成，平均每样本包含11篇文档，输出摘要则聚焦于游戏玩法描述，平均长度达321词。数据统计分析显示，输入与参考摘要间存在显著词汇重叠，单文档词汇召回率中位数达85.29%，体现了较强的抽取式摘要特性。同时，数据集涵盖超过20种游戏平台，确保了领域内多样性。

使用方法

针对数据集输入文档长度较大的特点，研究者建议采用两阶段处理流程。首先通过TF-IDF等抽取方法对输入文档进行粗粒度筛选，将文本长度压缩至2000词以内以适应硬件限制。随后可基于筛选结果训练抽取式或生成式摘要模型。实验表明，基于语义嵌入的抽取模型（如C-SKIP和SemSentSum）在该数据集上表现优异，而生成式模型需结合预训练或额外标注数据以提升性能。数据集已按8:1:1比例划分为训练、验证与测试集，且通过平台分组策略避免了跨集合的评论重叠问题。

背景与挑战

背景概述

在自然语言处理领域，多文档摘要技术旨在从多篇相关文档中提炼核心信息，生成简洁连贯的摘要。然而，该领域长期受限于数据集规模小、领域单一的问题，多数公开数据集如DUC和TAC仅包含数百个样本，且集中于新闻领域，制约了复杂模型的开发。为突破这一瓶颈，洛桑联邦理工学院人工智能实验室的Diego Antognini与Boi Faltings于2020年提出了GameWikiSum数据集。该数据集基于专业电子游戏评论与维基百科游戏玩法章节构建，包含14,652个样本，规模达传统数据集的百倍以上，首次将多文档摘要任务拓展至游戏领域，为模型训练提供了丰富且高质量的语料，显著推动了领域自适应与摘要方法的研究进展。

当前挑战

多文档摘要任务的核心挑战在于处理信息冗余与语言表达的多样性，不同文档对同一内容的描述往往存在显著差异，要求模型具备强大的语义理解与信息融合能力。GameWikiSum针对游戏领域摘要问题，需从长篇专业评论中提取游戏玩法关键信息，并生成与维基百科风格一致的摘要，这对模型的抽取与抽象能力提出了更高要求。在数据集构建过程中，研究者面临多重挑战：首先，需将海量游戏评论与对应维基百科页面精准匹配，通过启发式规则解决标题不一致、续作关联等问题；其次，输入文档长度与词汇规模庞大，部分样本包含多达84篇评论，累计词汇量近25万，超出常规模型处理极限，需设计预处理策略进行粗粒度筛选；此外，确保摘要质量与游戏玩法主题的一致性，需验证评论与维基百科内容的高重叠度，以维持数据集的抽取特性。

常用场景

经典使用场景

在自然语言处理领域，多文档摘要任务长期受限于数据集规模不足，尤其缺乏特定领域的语料库。GameWikiSum数据集通过整合专业游戏评论与维基百科游戏玩法章节，为研究者提供了一个大规模、高质量的领域专用语料。其经典使用场景在于训练和评估抽取式与生成式摘要模型，模型能够从多篇冗长评论中自动提炼核心游戏机制描述，生成与维基百科风格一致的摘要文本。该数据集的高冗余性和专业性确保了模型在复杂语境下的泛化能力，推动了多文档摘要技术向垂直领域的深入应用。

衍生相关工作

基于GameWikiSum的丰富语料，后续研究衍生出多项经典工作。例如，语义感知的图卷积模型（如SemSenSum）利用句子关系图提升摘要的连贯性；嵌入驱动的抽取方法（如C SKIP）探索了词向量在跨文档语义融合中的应用。这些工作不仅优化了多文档摘要的评估指标（如ROUGE-L F1），还启发了对领域自适应、少样本学习等前沿方向的探索。同时，该数据集为对比分析抽象模型（如Transformer）与抽取模型的性能差异提供了基准，推动了摘要技术向更高效、更智能的方向演进。

数据集最近研究