five

FineFineWeb-validation

收藏
Hugging Face2024-12-19 更新2024-12-20 收录
下载链接:
https://huggingface.co/datasets/m-a-p/FineFineWeb-validation
下载链接
链接失效反馈
官方服务:
资源简介:
FineFineWeb数据集是一个关于细粒度领域网络语料库的综合研究。该数据集涵盖了多个领域,如航空航天、农学、艺术、天文学等,每个领域在多个迭代中都有特定的标记和样本计数。数据构建流程包括去重、使用GPT-4进行URL标记、使用Qwen2-7B-Instruct和BERT模型进行粗召回和细召回,以及迭代优化。数据集还包括领域间相似性、重复性和与基准测试的相关性分析。该数据集适用于文本分类、文本生成等任务,并采用Apache 2.0许可证。

FineFineWeb Dataset is a comprehensive research on fine-grained domain web corpora. This dataset spans multiple domains such as aerospace, agronomy, art, astronomy, etc. Each domain possesses specific annotations and sample counts across multiple iterative rounds. The data construction pipeline encompasses deduplication, URL annotation via GPT-4, coarse-grained and fine-grained recall using Qwen2-7B-Instruct and BERT models, as well as iterative optimization. Additionally, the dataset includes analyses of inter-domain similarity, repeatability, and correlation with benchmark evaluations. This dataset is suitable for tasks including text classification and text generation, and is released under the Apache 2.0 license.
提供机构:
Multimodal Art Projection
创建时间:
2024-12-18
原始信息汇总

FineFineWeb: A Comprehensive Study on Fine-Grained Domain Web Corpus

数据集概述

FineFineWeb 是一个关于细粒度领域网络语料库的综合研究数据集。该数据集涵盖了多个领域的文本数据,适用于文本分类、文本生成和文本到文本生成等任务。

数据集统计

数据集包含多个领域的文本数据,每个领域在不同迭代中的令牌数和样本数如下:

领域 (令牌数/样本数) 迭代1令牌数 迭代2令牌数 迭代3令牌数 总令牌数 迭代1样本数 迭代2样本数 迭代3样本数 总样本数
aerospace 5.77B 261.63M 309.33M 6.34B 9100000 688505 611034 10399539
agronomy 13.08B 947.41M 229.04M 14.26B 15752828 2711790 649404 19114022
artistic 178.25B 5.79B 3.75B 187.80B 314279703 16113512 9957104 340350319
astronomy 5.20B 134.39M 54.66M 5.38B 7596521 357647 145832 8100000
atmospheric_science 2.80B 102.04M 259.25M 3.16B 5709537 267789 525969 6503295
automotive 36.72B 436.34M 911.65M 38.07B 60239679 1166729 1535882 62942290
beauty 19.10B 671.88M 1.01B 20.78B 34787376 1808382 2201810 38797568
biology 85.84B 371.29M 776.99M 86.99B 81413569 995384 1350348 83759301
celebrity 9.63B 706.41M 4.22B 14.56B 19831188 1803788 7949240 29584216
chemistry 27.80B 588.92M 131.46M 28.52B 31188189 1499085 328038 33015312
christianity 47.72B 403.68M 732.55M 48.86B 55013147 1349874 2021458 58384479
civil_engineering 8.85B 1.27B 402.91M 10.52B 13591632 2683940 940742 17216314
communication_engineering 9.21B 3.60B 327.66M 13.14B 13001767 5959526 746495 19707788
computer_science_and_technology 194.46B 3.95B 4.76B 203.16B 278420434 10263521 8654255 297338210
design 96.58B 3.80B 450.00M 100.82B 190275603 16653588 2090515 209019706
drama_and_film 19.12B 10.86B 206.27M 30.19B 33117478 18443259 564251 52124988
economics 205.01B 1.23B 2.63B 208.87B 263965085 3874091 5505880 273345056
electronic_science 30.19B 7.76B 482.62M 38.43B 42745767 12572747 1115605 56434119
entertainment 152.92B 1.67B 5.06B 159.65B 256935144 5801081 9648023 272384248
environmental_science 56.98B 1.48B 920.77M 59.37B 84500393 3557056 1966731 90024180
fashion 18.72B 977.27M 264.01M 19.96B 53465628 3926500 1346988 58739116
finance 146.39B 327.45M 1.13B 147.85B 187797764 1295893 3058801 192152458
food 56.10B 136.32M 978.91M 57.22B 96485838 613875 3051981 100151694
gamble 30.12B 696.52M 158.48M 30.98B 24909037 770540 164168 25843745
game 43.47B 2.36B 2.68B 48.51B 65680699 4670033 3720700 74071432
geography 110.18B 1.16B 192.67M 111.53B 161677214 3835932 559447 166072593
health 191.20B 427.93M 18.43B 210.06B 215747152 1291215 23975955 241014322
history 45.27B 1.56B 1.69B 48.52B 55710432 4167508 3463033 63340973
hobby 150.23B 42.78B 44.05B 237.06B 276636362 81360893 71407735 429404990
hydraulic_engineering 57.36M 75.40M 3.65M 136.41M 135079 163299 13453 311831
instrument_science 5.35B 2.02B 165.43M 7.54B 8307736 2904274 462256 11674266
journalism_and_media_communication 440.98B 21.00B 1.55B 463.53B 645801807 50657668 4909008 701368483
landscape_architecture 3.07B 557.66M 64.76M 3.70B 5613141 1138409 166526 6918076
law 128.58B 455.19M 2.38B 131.42B 166473205 1660944 6145032 174279181
library 57.16B 5.01B 36.56M 62.21B 86592305 10440991 153014 97186310
literature 71.07B 7.01B 67.53B 145.61B 71191075 13247806 54760578 139199459
materials_science 17.79B 1.11B 303.66M 19.20B 22136519 1663376 708384 24508279
mathematics 5.87B 50.33M 261.65M 6.18B 10131933 179592 653050 10964575
mechanical_engineering 86.13B 1.24B 129.96M 87.49B 111778813 3201605 428714 115409132
medical 140.03B 813.46M 4.97B 145.81B 149594634 2266477 8527901 160389012
mining_engineering 7.26B 206.05M 529.02M 8.00B 5540631 236145 468458 6245234
movie 13.09B 639.20M 124.67M 13.86B 22938808 1577576 511882 25028266
music_and_dance 15.42B 10.38B 618.46M 26.42B 29566554 20233446 1998272 51798272
news 328.47B 12.37B 11.34B 352.18B 508567768 33206709 23482422 565256899
nuclear_science 559.05M 79.89M 78.79M 717.72M 784847 170282 133598 1088727
ocean_science 2.36B 537.82M 229.43M 3.13B 3700000 853052 425792 4978844
optical_engineering 2.33B 253.06M 263.99M 2.85B 3510836 535026 400371 4446233
painting 374.41M 429.63M 96.57M 900.61M 875783 824217 336203 2036203
pet 12.12B 154.14M 307.28M 12.58B 19624688 457635 778970 20861293
petroleum_and_natural_gas_engineering 950.08M 515.05M 121.56M 1.59B 1669447 899860 237843 2807150
philosophy 47.99B 121.26M 335.77M 48.44B 50396964 505275 1030405 51932644
photo 6.56B 1.74B 41.44M 8.34B 16194329 3901598 179607 20275
搜集汇总
数据集介绍
main_image_url
构建方式
FineFineWeb-validation数据集的构建过程采用了多阶段的精细筛选与迭代优化策略。首先,通过精确去重和MinHash技术对原始数据进行去重处理,确保数据集的纯净性。随后,利用GPT-4对前100万个根URL进行标注,生成域内兴趣(DoI)和非兴趣(DoNI)的粗粒度URL种子数据。基于这些种子数据,通过Qwen2-7B-Instruct模型进行初步标注,并训练FastText模型进行粗召回,生成粗粒度的DoI数据。进一步,利用Qwen2-72B-Instruct模型对粗召回数据进行精细标注,并训练BERT模型进行精细召回,最终形成FineFineWeb的核心数据集。整个过程经过三轮迭代,确保数据集的质量和多样性。
特点
FineFineWeb-validation数据集的显著特点在于其高度细粒度的领域划分和多层次的数据筛选机制。该数据集涵盖了从航空航天到社会学等多个领域的广泛主题,每个领域都经过多轮的粗召回和精细召回处理,确保数据的准确性和代表性。此外,数据集通过域内相似性分析和域间重复率分析,进一步优化了各领域数据的独特性和相关性。这种多维度的数据处理方式使得FineFineWeb在处理复杂的多领域文本分类和生成任务时表现出色。
使用方法
FineFineWeb-validation数据集适用于多种自然语言处理任务,包括文本分类、文本生成和文本到文本生成等。用户可以通过加载该数据集进行模型训练和评估,特别是在需要处理多领域文本数据的场景中。数据集提供了详细的领域划分和标注信息,便于用户根据具体需求进行数据筛选和模型调优。此外,数据集的构建流程和分析结果也为用户提供了深入理解各领域数据特性的参考,有助于设计更加精准的模型和算法。
背景与挑战
背景概述
FineFineWeb-validation数据集是由M-A-P等研究人员于2024年创建的,旨在通过细粒度领域网络语料库进行全面研究。该数据集的核心研究问题是如何在多个领域中高效地构建和分类大规模文本数据,以支持文本分类、文本生成等任务。FineFineWeb-validation涵盖了从航空航天到社会学等多个领域的数据,总数据量超过4.4万亿个token,展示了其在自然语言处理领域的广泛应用潜力。该数据集的构建不仅推动了多领域文本数据的处理技术,还为跨领域知识融合提供了新的研究方向。
当前挑战
FineFineWeb-validation数据集在构建过程中面临多项挑战。首先,数据的去重和标注过程复杂,采用了GPT-4和Qwen2-7B-Instruct等先进模型进行URL标注和数据分类,确保数据的准确性和多样性。其次,数据集的构建涉及多个领域的知识,如何在这些领域之间进行有效的相似性分析和去重处理是一个技术难点。此外,数据集的规模庞大,如何在有限的计算资源下高效地进行模型训练和数据处理也是一个重要挑战。最后,跨领域的知识融合和模型性能评估需要进一步的研究和优化,以确保数据集在不同任务中的广泛适用性。
常用场景
经典使用场景
FineFineWeb-validation数据集在细粒度领域文本分类任务中展现了其经典应用场景。该数据集通过多轮迭代的方式,从海量网络数据中筛选出高质量的领域特定文本,适用于构建领域知识增强的文本分类模型。其丰富的领域覆盖范围,如航空航天、艺术、生物学等,使得该数据集在跨领域文本分类任务中具有广泛的应用潜力。
衍生相关工作
基于FineFineWeb-validation数据集,研究者们开展了多项经典工作。例如,有研究利用该数据集进行领域相似性分析,提出了基于领域嵌入的跨领域迁移学习方法;还有研究通过该数据集训练的模型,在多个基准测试中取得了优异的成绩,展示了其在多领域知识融合方面的潜力。这些工作进一步推动了细粒度领域文本分类技术的发展。
数据集最近研究
最新研究方向
FineFineWeb-validation数据集在细粒度领域语料库研究中展现了显著的前沿性。该数据集通过多轮迭代的数据构建流程,结合GPT-4和Qwen2-7B-Instruct等先进模型进行数据标注和召回,确保了数据的高质量和多样性。其研究方向主要集中在跨领域相似性分析和领域间重复性检测,通过计算MMD距离和Wasserstein距离,揭示了不同领域数据之间的分布差异和潜在关联。此外,该数据集还探索了领域与基准测试之间的BPC-Acc相关性,为模型在不同领域的表现提供了深入的洞察。这些研究不仅推动了细粒度领域语料库的构建技术,还为多领域知识融合和模型泛化能力的提升提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作