FineFineWeb-validation
收藏Hugging Face2024-12-19 更新2024-12-20 收录
下载链接:
https://huggingface.co/datasets/m-a-p/FineFineWeb-validation
下载链接
链接失效反馈官方服务:
资源简介:
FineFineWeb数据集是一个关于细粒度领域网络语料库的综合研究。该数据集涵盖了多个领域,如航空航天、农学、艺术、天文学等,每个领域在多个迭代中都有特定的标记和样本计数。数据构建流程包括去重、使用GPT-4进行URL标记、使用Qwen2-7B-Instruct和BERT模型进行粗召回和细召回,以及迭代优化。数据集还包括领域间相似性、重复性和与基准测试的相关性分析。该数据集适用于文本分类、文本生成等任务,并采用Apache 2.0许可证。
FineFineWeb Dataset is a comprehensive research on fine-grained domain web corpora. This dataset spans multiple domains such as aerospace, agronomy, art, astronomy, etc. Each domain possesses specific annotations and sample counts across multiple iterative rounds. The data construction pipeline encompasses deduplication, URL annotation via GPT-4, coarse-grained and fine-grained recall using Qwen2-7B-Instruct and BERT models, as well as iterative optimization. Additionally, the dataset includes analyses of inter-domain similarity, repeatability, and correlation with benchmark evaluations. This dataset is suitable for tasks including text classification and text generation, and is released under the Apache 2.0 license.
提供机构:
Multimodal Art Projection
创建时间:
2024-12-18
原始信息汇总
FineFineWeb: A Comprehensive Study on Fine-Grained Domain Web Corpus
数据集概述
FineFineWeb 是一个关于细粒度领域网络语料库的综合研究数据集。该数据集涵盖了多个领域的文本数据,适用于文本分类、文本生成和文本到文本生成等任务。
数据集统计
数据集包含多个领域的文本数据,每个领域在不同迭代中的令牌数和样本数如下:
| 领域 (令牌数/样本数) | 迭代1令牌数 | 迭代2令牌数 | 迭代3令牌数 | 总令牌数 | 迭代1样本数 | 迭代2样本数 | 迭代3样本数 | 总样本数 |
|---|---|---|---|---|---|---|---|---|
| aerospace | 5.77B | 261.63M | 309.33M | 6.34B | 9100000 | 688505 | 611034 | 10399539 |
| agronomy | 13.08B | 947.41M | 229.04M | 14.26B | 15752828 | 2711790 | 649404 | 19114022 |
| artistic | 178.25B | 5.79B | 3.75B | 187.80B | 314279703 | 16113512 | 9957104 | 340350319 |
| astronomy | 5.20B | 134.39M | 54.66M | 5.38B | 7596521 | 357647 | 145832 | 8100000 |
| atmospheric_science | 2.80B | 102.04M | 259.25M | 3.16B | 5709537 | 267789 | 525969 | 6503295 |
| automotive | 36.72B | 436.34M | 911.65M | 38.07B | 60239679 | 1166729 | 1535882 | 62942290 |
| beauty | 19.10B | 671.88M | 1.01B | 20.78B | 34787376 | 1808382 | 2201810 | 38797568 |
| biology | 85.84B | 371.29M | 776.99M | 86.99B | 81413569 | 995384 | 1350348 | 83759301 |
| celebrity | 9.63B | 706.41M | 4.22B | 14.56B | 19831188 | 1803788 | 7949240 | 29584216 |
| chemistry | 27.80B | 588.92M | 131.46M | 28.52B | 31188189 | 1499085 | 328038 | 33015312 |
| christianity | 47.72B | 403.68M | 732.55M | 48.86B | 55013147 | 1349874 | 2021458 | 58384479 |
| civil_engineering | 8.85B | 1.27B | 402.91M | 10.52B | 13591632 | 2683940 | 940742 | 17216314 |
| communication_engineering | 9.21B | 3.60B | 327.66M | 13.14B | 13001767 | 5959526 | 746495 | 19707788 |
| computer_science_and_technology | 194.46B | 3.95B | 4.76B | 203.16B | 278420434 | 10263521 | 8654255 | 297338210 |
| design | 96.58B | 3.80B | 450.00M | 100.82B | 190275603 | 16653588 | 2090515 | 209019706 |
| drama_and_film | 19.12B | 10.86B | 206.27M | 30.19B | 33117478 | 18443259 | 564251 | 52124988 |
| economics | 205.01B | 1.23B | 2.63B | 208.87B | 263965085 | 3874091 | 5505880 | 273345056 |
| electronic_science | 30.19B | 7.76B | 482.62M | 38.43B | 42745767 | 12572747 | 1115605 | 56434119 |
| entertainment | 152.92B | 1.67B | 5.06B | 159.65B | 256935144 | 5801081 | 9648023 | 272384248 |
| environmental_science | 56.98B | 1.48B | 920.77M | 59.37B | 84500393 | 3557056 | 1966731 | 90024180 |
| fashion | 18.72B | 977.27M | 264.01M | 19.96B | 53465628 | 3926500 | 1346988 | 58739116 |
| finance | 146.39B | 327.45M | 1.13B | 147.85B | 187797764 | 1295893 | 3058801 | 192152458 |
| food | 56.10B | 136.32M | 978.91M | 57.22B | 96485838 | 613875 | 3051981 | 100151694 |
| gamble | 30.12B | 696.52M | 158.48M | 30.98B | 24909037 | 770540 | 164168 | 25843745 |
| game | 43.47B | 2.36B | 2.68B | 48.51B | 65680699 | 4670033 | 3720700 | 74071432 |
| geography | 110.18B | 1.16B | 192.67M | 111.53B | 161677214 | 3835932 | 559447 | 166072593 |
| health | 191.20B | 427.93M | 18.43B | 210.06B | 215747152 | 1291215 | 23975955 | 241014322 |
| history | 45.27B | 1.56B | 1.69B | 48.52B | 55710432 | 4167508 | 3463033 | 63340973 |
| hobby | 150.23B | 42.78B | 44.05B | 237.06B | 276636362 | 81360893 | 71407735 | 429404990 |
| hydraulic_engineering | 57.36M | 75.40M | 3.65M | 136.41M | 135079 | 163299 | 13453 | 311831 |
| instrument_science | 5.35B | 2.02B | 165.43M | 7.54B | 8307736 | 2904274 | 462256 | 11674266 |
| journalism_and_media_communication | 440.98B | 21.00B | 1.55B | 463.53B | 645801807 | 50657668 | 4909008 | 701368483 |
| landscape_architecture | 3.07B | 557.66M | 64.76M | 3.70B | 5613141 | 1138409 | 166526 | 6918076 |
| law | 128.58B | 455.19M | 2.38B | 131.42B | 166473205 | 1660944 | 6145032 | 174279181 |
| library | 57.16B | 5.01B | 36.56M | 62.21B | 86592305 | 10440991 | 153014 | 97186310 |
| literature | 71.07B | 7.01B | 67.53B | 145.61B | 71191075 | 13247806 | 54760578 | 139199459 |
| materials_science | 17.79B | 1.11B | 303.66M | 19.20B | 22136519 | 1663376 | 708384 | 24508279 |
| mathematics | 5.87B | 50.33M | 261.65M | 6.18B | 10131933 | 179592 | 653050 | 10964575 |
| mechanical_engineering | 86.13B | 1.24B | 129.96M | 87.49B | 111778813 | 3201605 | 428714 | 115409132 |
| medical | 140.03B | 813.46M | 4.97B | 145.81B | 149594634 | 2266477 | 8527901 | 160389012 |
| mining_engineering | 7.26B | 206.05M | 529.02M | 8.00B | 5540631 | 236145 | 468458 | 6245234 |
| movie | 13.09B | 639.20M | 124.67M | 13.86B | 22938808 | 1577576 | 511882 | 25028266 |
| music_and_dance | 15.42B | 10.38B | 618.46M | 26.42B | 29566554 | 20233446 | 1998272 | 51798272 |
| news | 328.47B | 12.37B | 11.34B | 352.18B | 508567768 | 33206709 | 23482422 | 565256899 |
| nuclear_science | 559.05M | 79.89M | 78.79M | 717.72M | 784847 | 170282 | 133598 | 1088727 |
| ocean_science | 2.36B | 537.82M | 229.43M | 3.13B | 3700000 | 853052 | 425792 | 4978844 |
| optical_engineering | 2.33B | 253.06M | 263.99M | 2.85B | 3510836 | 535026 | 400371 | 4446233 |
| painting | 374.41M | 429.63M | 96.57M | 900.61M | 875783 | 824217 | 336203 | 2036203 |
| pet | 12.12B | 154.14M | 307.28M | 12.58B | 19624688 | 457635 | 778970 | 20861293 |
| petroleum_and_natural_gas_engineering | 950.08M | 515.05M | 121.56M | 1.59B | 1669447 | 899860 | 237843 | 2807150 |
| philosophy | 47.99B | 121.26M | 335.77M | 48.44B | 50396964 | 505275 | 1030405 | 51932644 |
| photo | 6.56B | 1.74B | 41.44M | 8.34B | 16194329 | 3901598 | 179607 | 20275 |
搜集汇总
数据集介绍

构建方式
FineFineWeb-validation数据集的构建过程采用了多阶段的精细筛选与迭代优化策略。首先,通过精确去重和MinHash技术对原始数据进行去重处理,确保数据集的纯净性。随后,利用GPT-4对前100万个根URL进行标注,生成域内兴趣(DoI)和非兴趣(DoNI)的粗粒度URL种子数据。基于这些种子数据,通过Qwen2-7B-Instruct模型进行初步标注,并训练FastText模型进行粗召回,生成粗粒度的DoI数据。进一步,利用Qwen2-72B-Instruct模型对粗召回数据进行精细标注,并训练BERT模型进行精细召回,最终形成FineFineWeb的核心数据集。整个过程经过三轮迭代,确保数据集的质量和多样性。
特点
FineFineWeb-validation数据集的显著特点在于其高度细粒度的领域划分和多层次的数据筛选机制。该数据集涵盖了从航空航天到社会学等多个领域的广泛主题,每个领域都经过多轮的粗召回和精细召回处理,确保数据的准确性和代表性。此外,数据集通过域内相似性分析和域间重复率分析,进一步优化了各领域数据的独特性和相关性。这种多维度的数据处理方式使得FineFineWeb在处理复杂的多领域文本分类和生成任务时表现出色。
使用方法
FineFineWeb-validation数据集适用于多种自然语言处理任务,包括文本分类、文本生成和文本到文本生成等。用户可以通过加载该数据集进行模型训练和评估,特别是在需要处理多领域文本数据的场景中。数据集提供了详细的领域划分和标注信息,便于用户根据具体需求进行数据筛选和模型调优。此外,数据集的构建流程和分析结果也为用户提供了深入理解各领域数据特性的参考,有助于设计更加精准的模型和算法。
背景与挑战
背景概述
FineFineWeb-validation数据集是由M-A-P等研究人员于2024年创建的,旨在通过细粒度领域网络语料库进行全面研究。该数据集的核心研究问题是如何在多个领域中高效地构建和分类大规模文本数据,以支持文本分类、文本生成等任务。FineFineWeb-validation涵盖了从航空航天到社会学等多个领域的数据,总数据量超过4.4万亿个token,展示了其在自然语言处理领域的广泛应用潜力。该数据集的构建不仅推动了多领域文本数据的处理技术,还为跨领域知识融合提供了新的研究方向。
当前挑战
FineFineWeb-validation数据集在构建过程中面临多项挑战。首先,数据的去重和标注过程复杂,采用了GPT-4和Qwen2-7B-Instruct等先进模型进行URL标注和数据分类,确保数据的准确性和多样性。其次,数据集的构建涉及多个领域的知识,如何在这些领域之间进行有效的相似性分析和去重处理是一个技术难点。此外,数据集的规模庞大,如何在有限的计算资源下高效地进行模型训练和数据处理也是一个重要挑战。最后,跨领域的知识融合和模型性能评估需要进一步的研究和优化,以确保数据集在不同任务中的广泛适用性。
常用场景
经典使用场景
FineFineWeb-validation数据集在细粒度领域文本分类任务中展现了其经典应用场景。该数据集通过多轮迭代的方式,从海量网络数据中筛选出高质量的领域特定文本,适用于构建领域知识增强的文本分类模型。其丰富的领域覆盖范围,如航空航天、艺术、生物学等,使得该数据集在跨领域文本分类任务中具有广泛的应用潜力。
衍生相关工作
基于FineFineWeb-validation数据集,研究者们开展了多项经典工作。例如,有研究利用该数据集进行领域相似性分析,提出了基于领域嵌入的跨领域迁移学习方法;还有研究通过该数据集训练的模型,在多个基准测试中取得了优异的成绩,展示了其在多领域知识融合方面的潜力。这些工作进一步推动了细粒度领域文本分类技术的发展。
数据集最近研究
最新研究方向
FineFineWeb-validation数据集在细粒度领域语料库研究中展现了显著的前沿性。该数据集通过多轮迭代的数据构建流程,结合GPT-4和Qwen2-7B-Instruct等先进模型进行数据标注和召回,确保了数据的高质量和多样性。其研究方向主要集中在跨领域相似性分析和领域间重复性检测,通过计算MMD距离和Wasserstein距离,揭示了不同领域数据之间的分布差异和潜在关联。此外,该数据集还探索了领域与基准测试之间的BPC-Acc相关性,为模型在不同领域的表现提供了深入的洞察。这些研究不仅推动了细粒度领域语料库的构建技术,还为多领域知识融合和模型泛化能力的提升提供了重要参考。
以上内容由遇见数据集搜集并总结生成



