Scandinavian WEb (SWEb)

Name: Scandinavian WEb (SWEb)
Creator: AI Sweden
Published: 2024-10-06 19:55:15
License: 暂无描述

arXiv2024-10-06 更新2024-10-09 收录

下载链接：

https://huggingface.co/datasets/AI-Sweden-Models/SWEb

下载链接

链接失效反馈

官方服务：

资源简介：

Scandinavian WEb (SWEb) 是由AI Sweden创建的迄今为止最大的斯堪的纳维亚语言预训练数据集，包含超过一万亿个Tokens。该数据集通过98个Common Crawl快照运行，采用了一种新的基于模型的文本提取器，显著降低了复杂性。SWEb不仅用于语言模型的预训练，还引入了一个新的瑞典语完形填空式基准测试，用于评估语言模型。该数据集的应用领域主要集中在斯堪的纳维亚语言的处理和语言模型的改进上，旨在解决现有数据集规模较小的问题。

Scandinavian Web (SWEb) is the largest pre-training dataset for Scandinavian languages to date, created by AI Sweden, containing over one trillion Tokens. It leverages 98 Common Crawl snapshots and adopts a novel model-based text extractor, which significantly reduces processing complexity. Besides being used for pre-training language models, SWEb also introduces a new Swedish cloze-style benchmark for language model evaluation. The dataset is mainly focused on Scandinavian language processing and language model optimization, aiming to address the small-scale issue of existing datasets.

提供机构：

AI Sweden

创建时间：

2024-10-06

搜集汇总

数据集介绍

构建方式

SWEb数据集的构建始于对Common Crawl的98个快照进行处理，通过CCNet工具识别并筛选出斯堪的纳维亚语言的文档。随后，这些文档的原始HTML内容从WARC存档中提取，并转换为Markdown格式。接着，采用基于模型的文本提取器对Markdown文档进行逐行过滤，该提取器通过训练少量标注数据（1,380个网页）来识别和保留主要内容。最后，通过一系列质量过滤和去重步骤，确保数据集的高质量和多样性。

使用方法

SWEb数据集适用于训练大规模语言模型，特别是针对斯堪的纳维亚语言的预训练任务。用户可以通过Hugging Face Hub下载数据集，并使用提供的代码和模型进行数据处理和模型训练。数据集的Markdown格式使得用户可以灵活地进行文本处理和特征提取。此外，SWEb还提供了一个新的完形填空风格基准测试HP-MEK，用于评估语言模型在瑞典语中的表现，用户可以利用这一基准测试来验证模型的性能。

背景与挑战

背景概述

Scandinavian WEb (SWEb)数据集由AI Sweden的研究团队创建，是迄今为止斯堪的纳维亚语言（瑞典语、丹麦语、挪威语和冰岛语）中最大的预训练数据集，包含超过一万亿个标记。该数据集的构建旨在解决高资源语言（如英语）在预训练数据集研究中的主导地位，通过提供大规模、高质量的开源预训练数据集，促进斯堪的纳维亚语言的机器学习模型的发展。SWEb数据集的构建过程包括内容选择、提取、质量过滤和去重等多个阶段，并引入了一种基于模型的文本提取器，显著降低了复杂性，同时提高了数据质量。

当前挑战

SWEb数据集在构建过程中面临多个挑战。首先，斯堪的纳维亚语言在互联网数据中的占比相对较小，因此需要高效的内容选择和语言检测机制。其次，传统的基于规则的文本提取方法复杂且难以适应多变的数据格式，而基于模型的提取方法虽然灵活，但计算成本较高。此外，数据质量的保证也是一个重要挑战，包括去重、质量过滤和个人信息保护等方面。最后，如何在高资源语言主导的研究环境中，提升斯堪的纳维亚语言模型的性能和影响力，也是SWEb数据集需要解决的问题。

常用场景

经典使用场景

Scandinavian Web (SWEb) 数据集的经典使用场景主要集中在预训练语言模型（LLMs）的开发与优化上。该数据集通过提供超过一万亿的标记数据，极大地丰富了斯堪的纳维亚语言（如瑞典语、丹麦语、挪威语和冰岛语）的预训练资源。研究者们利用SWEb数据集训练和微调语言模型，以提升这些模型在自然语言处理任务中的表现，特别是在低资源语言环境下的应用。

解决学术问题

SWEb数据集解决了学术界在预训练语言模型中面临的一个关键问题：缺乏高质量、大规模的斯堪的纳维亚语言数据。通过提供丰富的预训练数据，SWEb数据集显著提升了语言模型在这些语言中的表现，推动了相关领域的研究进展。此外，SWEb数据集还引入了一种新的基于模型的文本提取方法，显著降低了复杂性，为数据处理和模型训练提供了新的思路。

实际应用

在实际应用中，SWEb数据集被广泛用于开发和优化面向斯堪的纳维亚语言的自然语言处理工具和应用。例如，它可以用于构建更精确的机器翻译系统、自动文本摘要工具以及智能客服系统等。此外，SWEb数据集的开源特性也促进了跨领域的合作与创新，使得更多研究者和开发者能够利用这些资源进行研究和开发。

数据集最近研究