FineFineWeb-validation

Name: FineFineWeb-validation
Creator: Multimodal Art Projection
Published: 2024-12-19 19:37:07
License: 暂无描述

Hugging Face2024-12-19 更新2024-12-20 收录

下载链接：

https://huggingface.co/datasets/m-a-p/FineFineWeb-validation

下载链接

链接失效反馈

官方服务：

资源简介：

FineFineWeb数据集是一个关于细粒度领域网络语料库的综合研究。该数据集涵盖了多个领域，如航空航天、农学、艺术、天文学等，每个领域在多个迭代中都有特定的标记和样本计数。数据构建流程包括去重、使用GPT-4进行URL标记、使用Qwen2-7B-Instruct和BERT模型进行粗召回和细召回，以及迭代优化。数据集还包括领域间相似性、重复性和与基准测试的相关性分析。该数据集适用于文本分类、文本生成等任务，并采用Apache 2.0许可证。

FineFineWeb Dataset is a comprehensive research on fine-grained domain web corpora. This dataset spans multiple domains such as aerospace, agronomy, art, astronomy, etc. Each domain possesses specific annotations and sample counts across multiple iterative rounds. The data construction pipeline encompasses deduplication, URL annotation via GPT-4, coarse-grained and fine-grained recall using Qwen2-7B-Instruct and BERT models, as well as iterative optimization. Additionally, the dataset includes analyses of inter-domain similarity, repeatability, and correlation with benchmark evaluations. This dataset is suitable for tasks including text classification and text generation, and is released under the Apache 2.0 license.

提供机构：

Multimodal Art Projection

创建时间：

2024-12-18

原始信息汇总

FineFineWeb: A Comprehensive Study on Fine-Grained Domain Web Corpus

数据集概述

FineFineWeb 是一个关于细粒度领域网络语料库的综合研究数据集。该数据集涵盖了多个领域的文本数据，适用于文本分类、文本生成和文本到文本生成等任务。

数据集统计

数据集包含多个领域的文本数据，每个领域在不同迭代中的令牌数和样本数如下：

领域 (令牌数/样本数)	迭代1令牌数	迭代2令牌数	迭代3令牌数	总令牌数	迭代1样本数	迭代2样本数	迭代3样本数	总样本数
aerospace	5.77B	261.63M	309.33M	6.34B	9100000	688505	611034	10399539
agronomy	13.08B	947.41M	229.04M	14.26B	15752828	2711790	649404	19114022
artistic	178.25B	5.79B	3.75B	187.80B	314279703	16113512	9957104	340350319
astronomy	5.20B	134.39M	54.66M	5.38B	7596521	357647	145832	8100000
atmospheric_science	2.80B	102.04M	259.25M	3.16B	5709537	267789	525969	6503295
automotive	36.72B	436.34M	911.65M	38.07B	60239679	1166729	1535882	62942290
beauty	19.10B	671.88M	1.01B	20.78B	34787376	1808382	2201810	38797568
biology	85.84B	371.29M	776.99M	86.99B	81413569	995384	1350348	83759301
celebrity	9.63B	706.41M	4.22B	14.56B	19831188	1803788	7949240	29584216
chemistry	27.80B	588.92M	131.46M	28.52B	31188189	1499085	328038	33015312
christianity	47.72B	403.68M	732.55M	48.86B	55013147	1349874	2021458	58384479
civil_engineering	8.85B	1.27B	402.91M	10.52B	13591632	2683940	940742	17216314
communication_engineering	9.21B	3.60B	327.66M	13.14B	13001767	5959526	746495	19707788
computer_science_and_technology	194.46B	3.95B	4.76B	203.16B	278420434	10263521	8654255	297338210
design	96.58B	3.80B	450.00M	100.82B	190275603	16653588	2090515	209019706
drama_and_film	19.12B	10.86B	206.27M	30.19B	33117478	18443259	564251	52124988
economics	205.01B	1.23B	2.63B	208.87B	263965085	3874091	5505880	273345056
electronic_science	30.19B	7.76B	482.62M	38.43B	42745767	12572747	1115605	56434119
entertainment	152.92B	1.67B	5.06B	159.65B	256935144	5801081	9648023	272384248
environmental_science	56.98B	1.48B	920.77M	59.37B	84500393	3557056	1966731	90024180
fashion	18.72B	977.27M	264.01M	19.96B	53465628	3926500	1346988	58739116
finance	146.39B	327.45M	1.13B	147.85B	187797764	1295893	3058801	192152458
food	56.10B	136.32M	978.91M	57.22B	96485838	613875	3051981	100151694
gamble	30.12B	696.52M	158.48M	30.98B	24909037	770540	164168	25843745
game	43.47B	2.36B	2.68B	48.51B	65680699	4670033	3720700	74071432
geography	110.18B	1.16B	192.67M	111.53B	161677214	3835932	559447	166072593
health	191.20B	427.93M	18.43B	210.06B	215747152	1291215	23975955	241014322
history	45.27B	1.56B	1.69B	48.52B	55710432	4167508	3463033	63340973
hobby	150.23B	42.78B	44.05B	237.06B	276636362	81360893	71407735	429404990
hydraulic_engineering	57.36M	75.40M	3.65M	136.41M	135079	163299	13453	311831
instrument_science	5.35B	2.02B	165.43M	7.54B	8307736	2904274	462256	11674266
journalism_and_media_communication	440.98B	21.00B	1.55B	463.53B	645801807	50657668	4909008	701368483
landscape_architecture	3.07B	557.66M	64.76M	3.70B	5613141	1138409	166526	6918076
law	128.58B	455.19M	2.38B	131.42B	166473205	1660944	6145032	174279181
library	57.16B	5.01B	36.56M	62.21B	86592305	10440991	153014	97186310
literature	71.07B	7.01B	67.53B	145.61B	71191075	13247806	54760578	139199459
materials_science	17.79B	1.11B	303.66M	19.20B	22136519	1663376	708384	24508279
mathematics	5.87B	50.33M	261.65M	6.18B	10131933	179592	653050	10964575
mechanical_engineering	86.13B	1.24B	129.96M	87.49B	111778813	3201605	428714	115409132
medical	140.03B	813.46M	4.97B	145.81B	149594634	2266477	8527901	160389012
mining_engineering	7.26B	206.05M	529.02M	8.00B	5540631	236145	468458	6245234
movie	13.09B	639.20M	124.67M	13.86B	22938808	1577576	511882	25028266
music_and_dance	15.42B	10.38B	618.46M	26.42B	29566554	20233446	1998272	51798272
news	328.47B	12.37B	11.34B	352.18B	508567768	33206709	23482422	565256899
nuclear_science	559.05M	79.89M	78.79M	717.72M	784847	170282	133598	1088727
ocean_science	2.36B	537.82M	229.43M	3.13B	3700000	853052	425792	4978844
optical_engineering	2.33B	253.06M	263.99M	2.85B	3510836	535026	400371	4446233
painting	374.41M	429.63M	96.57M	900.61M	875783	824217	336203	2036203
pet	12.12B	154.14M	307.28M	12.58B	19624688	457635	778970	20861293
petroleum_and_natural_gas_engineering	950.08M	515.05M	121.56M	1.59B	1669447	899860	237843	2807150
philosophy	47.99B	121.26M	335.77M	48.44B	50396964	505275	1030405	51932644
photo	6.56B	1.74B	41.44M	8.34B	16194329	3901598	179607	20275

搜集汇总

数据集介绍

构建方式

FineFineWeb-validation数据集的构建过程采用了多阶段的精细筛选与迭代优化策略。首先，通过精确去重和MinHash技术对原始数据进行去重处理，确保数据集的纯净性。随后，利用GPT-4对前100万个根URL进行标注，生成域内兴趣（DoI）和非兴趣（DoNI）的粗粒度URL种子数据。基于这些种子数据，通过Qwen2-7B-Instruct模型进行初步标注，并训练FastText模型进行粗召回，生成粗粒度的DoI数据。进一步，利用Qwen2-72B-Instruct模型对粗召回数据进行精细标注，并训练BERT模型进行精细召回，最终形成FineFineWeb的核心数据集。整个过程经过三轮迭代，确保数据集的质量和多样性。

特点

FineFineWeb-validation数据集的显著特点在于其高度细粒度的领域划分和多层次的数据筛选机制。该数据集涵盖了从航空航天到社会学等多个领域的广泛主题，每个领域都经过多轮的粗召回和精细召回处理，确保数据的准确性和代表性。此外，数据集通过域内相似性分析和域间重复率分析，进一步优化了各领域数据的独特性和相关性。这种多维度的数据处理方式使得FineFineWeb在处理复杂的多领域文本分类和生成任务时表现出色。

使用方法

FineFineWeb-validation数据集适用于多种自然语言处理任务，包括文本分类、文本生成和文本到文本生成等。用户可以通过加载该数据集进行模型训练和评估，特别是在需要处理多领域文本数据的场景中。数据集提供了详细的领域划分和标注信息，便于用户根据具体需求进行数据筛选和模型调优。此外，数据集的构建流程和分析结果也为用户提供了深入理解各领域数据特性的参考，有助于设计更加精准的模型和算法。

背景与挑战

背景概述

FineFineWeb-validation数据集是由M-A-P等研究人员于2024年创建的，旨在通过细粒度领域网络语料库进行全面研究。该数据集的核心研究问题是如何在多个领域中高效地构建和分类大规模文本数据，以支持文本分类、文本生成等任务。FineFineWeb-validation涵盖了从航空航天到社会学等多个领域的数据，总数据量超过4.4万亿个token，展示了其在自然语言处理领域的广泛应用潜力。该数据集的构建不仅推动了多领域文本数据的处理技术，还为跨领域知识融合提供了新的研究方向。

当前挑战

FineFineWeb-validation数据集在构建过程中面临多项挑战。首先，数据的去重和标注过程复杂，采用了GPT-4和Qwen2-7B-Instruct等先进模型进行URL标注和数据分类，确保数据的准确性和多样性。其次，数据集的构建涉及多个领域的知识，如何在这些领域之间进行有效的相似性分析和去重处理是一个技术难点。此外，数据集的规模庞大，如何在有限的计算资源下高效地进行模型训练和数据处理也是一个重要挑战。最后，跨领域的知识融合和模型性能评估需要进一步的研究和优化，以确保数据集在不同任务中的广泛适用性。

常用场景

经典使用场景

FineFineWeb-validation数据集在细粒度领域文本分类任务中展现了其经典应用场景。该数据集通过多轮迭代的方式，从海量网络数据中筛选出高质量的领域特定文本，适用于构建领域知识增强的文本分类模型。其丰富的领域覆盖范围，如航空航天、艺术、生物学等，使得该数据集在跨领域文本分类任务中具有广泛的应用潜力。

衍生相关工作

基于FineFineWeb-validation数据集，研究者们开展了多项经典工作。例如，有研究利用该数据集进行领域相似性分析，提出了基于领域嵌入的跨领域迁移学习方法；还有研究通过该数据集训练的模型，在多个基准测试中取得了优异的成绩，展示了其在多领域知识融合方面的潜力。这些工作进一步推动了细粒度领域文本分类技术的发展。

数据集最近研究