WebOrganizer

github2025-02-19 更新2025-02-19 收录

下载链接：

https://github.com/CodeCreator/WebOrganizer

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了通过Llama-3.1-8B和Llama-3.1-405B-FP8模型分类的网页，用于训练WebOrganizer的领域分类器。

This dataset contains web pages classified by the Llama-3.1-8B and Llama-3.1-405B-FP8 models, and is used to train the domain classifier for WebOrganizer.

创建时间：

2025-02-08

原始信息汇总

Organize the Web: Constructing Domains Enhances Pre-Training Data Curation

Resources

Domain Classifiers

Topic: WebOrganizer/TopicClassifier (-NoURL version)
Format: WebOrganizer/FormatClassifier (-NoURL version)

Training Datasets

Corpus Annotations

WebOrganizer/Corpus-200B

Installation

Training New Domain Classifiers

Annotating Data

Predict a Training Distribution with RegMix

Selecting Training Data for Language Models

Citation

bibtex @article{wettig2025organize, title={Organize the Web: Constructing Domains Enhances Pre-Training Data Curation}, author={Alexander Wettig and Kyle Lo and Sewon Min and Hannaneh Hajishirzi and Danqi Chen and Luca Soldaini}, year={2025} }

搜集汇总

数据集介绍

构建方式

WebOrganizer数据集的构建，首先通过Llama-3.1-8B和Llama-3.1-405B-FP8两种模型对大量网页进行分类，形成话题和格式两类标注数据。接着，采用RefinedWeb过滤器对DataComps-LM的1b-1x池进行预处理，并利用BFF去重技术，最终构建出一个包含2000亿个token的语料库，并对其进行话题和格式的标注。

使用方法

用户可以通过克隆包含Git LFS的仓库来下载数据集。数据集的使用涉及多个步骤，包括数据预处理、K-means聚类、数据标注和领域分类器的训练。具体使用时，用户需要根据自身需求选择合适的脚本和参数进行操作，例如使用`select_training_data.py`脚本来选择用于语言模型训练的数据。

背景与挑战

背景概述

WebOrganizer数据集是一项旨在通过构建领域来增强预训练数据管理的研究成果，创建于近期，由Alexander Wettig、Kyle Lo等研究人员以及Hannaneh Hajishirzi和Danqi Chen等教授共同完成。该数据集的核心研究问题是优化预训练数据的质量和相关性，通过对网络内容进行领域分类，提高语言模型的学习效率。WebOrganizer对相关领域的影响力体现在其提出的领域分类方法和大规模数据集构建，为语言模型的预训练提供了新的视角和方法。

当前挑战

WebOrganizer数据集面临的挑战主要包括两个方面：一是领域分类的准确性，如何确保模型能够准确识别和分类网络内容的不同领域；二是数据集构建过程中的挑战，包括如何处理大规模数据集的预处理、标注以及领域统计等。构建过程中还需要解决数据的质量控制、去重和选择训练数据等问题，以确保最终数据集的有效性和可靠性。

常用场景

经典使用场景

WebOrganizer数据集致力于构建领域分类，增强预训练数据管理。该数据集的经典使用场景在于，通过领域分类器对大规模网页内容进行分类，辅助构建针对特定领域的语言模型。借助其提供的主题和格式分类功能，研究者能够高效地标注和筛选数据，进而优化模型在相应领域的表现。

解决学术问题

该数据集解决了学术研究中数据筛选和质量控制的难题。通过精确的领域分类，研究者可以在海量的网络内容中快速定位到与特定研究领域相关的数据，从而提升数据标注的效率和准确性，为语言模型的预训练提供高质量的数据基础。

实际应用

在实际应用中，WebOrganizer数据集可用于提升搜索引擎的检索效率，辅助教育资源的精准推荐，以及优化内容分发网络中的内容分类和分发策略。其领域分类的精细度有助于提升用户体验，降低信息过载带来的负面影响。

数据集最近研究