BrWac2Wiki

github2021-11-18 更新2024-05-31 收录

下载链接：

https://github.com/aseidelo/BrWac2Wiki

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个葡萄牙语的多文档摘要数据集，包含多个相关巴西网站文本与相应葡萄牙语维基百科首段的配对。数据集包含114,652个文档与维基百科的配对，适用于训练和验证葡萄牙语的多文档摘要AI模型。

This is a Portuguese multi-document summarization dataset, which includes pairs of texts from multiple related Brazilian websites and the corresponding first paragraphs of Portuguese Wikipedia. The dataset contains 114,652 document-Wikipedia pairs, suitable for training and validating AI models for Portuguese multi-document summarization.

创建时间：

2021-09-02

原始信息汇总

数据集概述

数据集名称

BrWac2Wiki

数据集目的

用于葡萄牙语的多文档摘要生成，特别是从巴西网站的多个相关文本生成葡萄牙语维基百科的引导部分。

数据集规模

包含114,652个（文档，维基百科）对。

数据集内容

docids.json: 关联每个维基百科文章的BrWac文档。每行是一个JSON条目，包含维基百科文章的唯一标识符（wiki_id）、标题（wiki_title）和多个BrWac文档的唯一标识符（docids）。
input.csv: 每行包含维基百科文章的标题和来自BrWac文档的句子（最多100字），使用</s>分隔。
output.csv: 每行包含维基百科文章的引导部分。

数据集下载

完整数据集下载链接

数据集相关研究

论文 "PLSUM: Generating PT-BR Wikipedia by Summarizing Websites" 将在ENIAC 2021上展示。

搜集汇总

数据集介绍

构建方式

BrWac2Wiki数据集的构建过程涉及从BrWac语料库中提取多个相关文本，并将其与巴西葡萄牙语维基百科的导语部分进行配对。具体而言，输入文本来源于BrWac语料库中的网页内容，而输出文本则来自巴西维基百科的导语部分。通过MongoDB数据库进行文本搜索，确保每个维基百科文章标题的所有单词都在BrWac文档中出现，并且每个维基百科文章最多关联15个文档。若在2秒内未找到相关文档，则该维基百科文章将被排除在数据集之外。

特点

BrWac2Wiki数据集包含114,652个（文档，维基百科）配对样本，适用于葡萄牙语的多文档摘要任务。其特点在于输入文本为来自巴西网站的多篇相关文档，输出文本为对应维基百科文章的导语部分。数据集通过严格的文本匹配规则确保输入文档与维基百科文章的相关性，同时限制了每篇文章的文档数量，以保证数据的质量和多样性。

使用方法

BrWac2Wiki数据集的使用方法较为直观。数据集包含三个文件：_docids.json_、_input.csv_和_output.csv_。_docids.json_文件记录了每个维基百科文章与相关BrWac文档的唯一标识符；_input.csv_文件包含了每个维基百科文章的标题及其关联的BrWac文档句子，句子之间以_</s>_符号分隔；_output.csv_文件则存储了每个维基百科文章的导语部分。用户可以通过这些文件进行多文档摘要模型的训练和验证，输入为多个相关文档，输出为对应的维基百科导语。

背景与挑战

背景概述

BrWac2Wiki数据集由圣保罗大学计算机工程与数字系统系的André Seidel Oliveira和Anna Helena Reali Costa于2021年创建，旨在解决葡萄牙语多文档摘要生成问题。该数据集包含114,652个（文档，维基百科）对，输入文本来自巴西网站语料库BrWac，输出为葡萄牙语维基百科的导语部分。其核心研究问题是如何从多个相关网站文本中生成高质量的维基百科文章摘要。该数据集的发布为葡萄牙语自然语言处理领域提供了重要的资源，推动了多文档摘要任务的研究进展，并启发了类似数据集（如WikiSum）的开发。

当前挑战

BrWac2Wiki数据集面临的挑战主要体现在两个方面。首先，多文档摘要任务本身具有较高的复杂性，尤其是在处理葡萄牙语文本时，语言的特异性（如语法结构和词汇多样性）增加了模型训练的难度。其次，数据集的构建过程中，研究人员需从BrWac语料库中筛选与维基百科标题相关的文档，并确保每篇文章至少关联一个文档，同时限制每篇文章最多关联15个文档。这一过程依赖于MongoDB数据库的文本搜索功能，但由于时间限制，搜索规则较为严格，可能导致部分潜在相关文档被遗漏，从而影响数据集的完整性和多样性。

常用场景

经典使用场景

BrWac2Wiki数据集在多文档摘要生成领域具有重要应用，特别是在葡萄牙语环境下。该数据集通过整合来自巴西网站的多篇相关文本，生成对应的葡萄牙语维基百科导语部分，为研究者提供了一个丰富的训练和验证平台。其经典使用场景包括训练和评估多文档摘要生成模型，尤其是在处理葡萄牙语文本时，能够有效提升模型的生成质量和准确性。

衍生相关工作

BrWac2Wiki数据集的发布催生了一系列相关研究，尤其是在多文档摘要生成和跨语言自然语言处理领域。例如，基于该数据集的研究工作进一步优化了葡萄牙语摘要生成模型，并探索了多语言模型的迁移学习能力。此外，该数据集还启发了其他语言环境下类似数据集的构建，如西班牙语和法语的多文档摘要数据集，推动了全球多语言自然语言处理研究的进展。

数据集最近研究