FineFineWeb-test
收藏Hugging Face2024-12-19 更新2024-12-20 收录
下载链接:
https://huggingface.co/datasets/m-a-p/FineFineWeb-test
下载链接
链接失效反馈官方服务:
资源简介:
FineFineWeb是一个关于细粒度领域网络语料库的综合研究数据集。该数据集设计用于多种自然语言处理任务,如文本分类、文本生成和文本到文本生成。它包含来自多个领域的数据,每个领域在不同迭代中都有特定的标记和样本计数。数据构建流程包括去重、URL标记、粗召回和细召回过程以及迭代优化。数据集还包括领域间相似性、重复性和与基准相关性的分析。该数据集采用Apache 2.0许可证,并以英文提供。
提供机构:
Multimodal Art Projection
创建时间:
2024-12-18
原始信息汇总
FineFineWeb: A Comprehensive Study on Fine-Grained Domain Web Corpus
数据集概述
FineFineWeb 是一个关于细粒度领域网络语料库的综合研究数据集。该数据集涵盖了多个领域的文本数据,适用于文本分类、文本生成和文本到文本生成等任务。
数据统计
数据集包含多个领域的文本数据,每个领域的数据量如下:
| 领域 (tokens/samples) | 迭代1 tokens | 迭代2 tokens | 迭代3 tokens | 总 tokens | 迭代1 样本数 | 迭代2 样本数 | 迭代3 样本数 | 总样本数 |
|---|---|---|---|---|---|---|---|---|
| aerospace | 5.77B | 261.63M | 309.33M | 6.34B | 9100000 | 688505 | 611034 | 10399539 |
| agronomy | 13.08B | 947.41M | 229.04M | 14.26B | 15752828 | 2711790 | 649404 | 19114022 |
| artistic | 178.25B | 5.79B | 3.75B | 187.80B | 314279703 | 16113512 | 9957104 | 340350319 |
| astronomy | 5.20B | 134.39M | 54.66M | 5.38B | 7596521 | 357647 | 145832 | 8100000 |
| atmospheric_science | 2.80B | 102.04M | 259.25M | 3.16B | 5709537 | 267789 | 525969 | 6503295 |
| automotive | 36.72B | 436.34M | 911.65M | 38.07B | 60239679 | 1166729 | 1535882 | 62942290 |
| beauty | 19.10B | 671.88M | 1.01B | 20.78B | 34787376 | 1808382 | 2201810 | 38797568 |
| biology | 85.84B | 371.29M | 776.99M | 86.99B | 81413569 | 995384 | 1350348 | 83759301 |
| celebrity | 9.63B | 706.41M | 4.22B | 14.56B | 19831188 | 1803788 | 7949240 | 29584216 |
| chemistry | 27.80B | 588.92M | 131.46M | 28.52B | 31188189 | 1499085 | 328038 | 33015312 |
| christianity | 47.72B | 403.68M | 732.55M | 48.86B | 55013147 | 1349874 | 2021458 | 58384479 |
| civil_engineering | 8.85B | 1.27B | 402.91M | 10.52B | 13591632 | 2683940 | 940742 | 17216314 |
| communication_engineering | 9.21B | 3.60B | 327.66M | 13.14B | 13001767 | 5959526 | 746495 | 19707788 |
| computer_science_and_technology | 194.46B | 3.95B | 4.76B | 203.16B | 278420434 | 10263521 | 8654255 | 297338210 |
| design | 96.58B | 3.80B | 450.00M | 100.82B | 190275603 | 16653588 | 2090515 | 209019706 |
| drama_and_film | 19.12B | 10.86B | 206.27M | 30.19B | 33117478 | 18443259 | 564251 | 52124988 |
| economics | 205.01B | 1.23B | 2.63B | 208.87B | 263965085 | 3874091 | 5505880 | 273345056 |
| electronic_science | 30.19B | 7.76B | 482.62M | 38.43B | 42745767 | 12572747 | 1115605 | 56434119 |
| entertainment | 152.92B | 1.67B | 5.06B | 159.65B | 256935144 | 5801081 | 9648023 | 272384248 |
| environmental_science | 56.98B | 1.48B | 920.77M | 59.37B | 84500393 | 3557056 | 1966731 | 90024180 |
| fashion | 18.72B | 977.27M | 264.01M | 19.96B | 53465628 | 3926500 | 1346988 | 58739116 |
| finance | 146.39B | 327.45M | 1.13B | 147.85B | 187797764 | 1295893 | 3058801 | 192152458 |
| food | 56.10B | 136.32M | 978.91M | 57.22B | 96485838 | 613875 | 3051981 | 100151694 |
| gamble | 30.12B | 696.52M | 158.48M | 30.98B | 24909037 | 770540 | 164168 | 25843745 |
| game | 43.47B | 2.36B | 2.68B | 48.51B | 65680699 | 4670033 | 3720700 | 74071432 |
| geography | 110.18B | 1.16B | 192.67M | 111.53B | 161677214 | 3835932 | 559447 | 166072593 |
| health | 191.20B | 427.93M | 18.43B | 210.06B | 215747152 | 1291215 | 23975955 | 241014322 |
| history | 45.27B | 1.56B | 1.69B | 48.52B | 55710432 | 4167508 | 3463033 | 63340973 |
| hobby | 150.23B | 42.78B | 44.05B | 237.06B | 276636362 | 81360893 | 71407735 | 429404990 |
| hydraulic_engineering | 57.36M | 75.40M | 3.65M | 136.41M | 135079 | 163299 | 13453 | 311831 |
| instrument_science | 5.35B | 2.02B | 165.43M | 7.54B | 8307736 | 2904274 | 462256 | 11674266 |
| journalism_and_media_communication | 440.98B | 21.00B | 1.55B | 463.53B | 645801807 | 50657668 | 4909008 | 701368483 |
| landscape_architecture | 3.07B | 557.66M | 64.76M | 3.70B | 5613141 | 1138409 | 166526 | 6918076 |
| law | 128.58B | 455.19M | 2.38B | 131.42B | 166473205 | 1660944 | 6145032 | 174279181 |
| library | 57.16B | 5.01B | 36.56M | 62.21B | 86592305 | 10440991 | 153014 | 97186310 |
| literature | 71.07B | 7.01B | 67.53B | 145.61B | 71191075 | 13247806 | 54760578 | 139199459 |
| materials_science | 17.79B | 1.11B | 303.66M | 19.20B | 22136519 | 1663376 | 708384 | 24508279 |
| mathematics | 5.87B | 50.33M | 261.65M | 6.18B | 10131933 | 179592 | 653050 | 10964575 |
| mechanical_engineering | 86.13B | 1.24B | 129.96M | 87.49B | 111778813 | 3201605 | 428714 | 115409132 |
| medical | 140.03B | 813.46M | 4.97B | 145.81B | 149594634 | 2266477 | 8527901 | 160389012 |
| mining_engineering | 7.26B | 206.05M | 529.02M | 8.00B | 5540631 | 236145 | 468458 | 6245234 |
| movie | 13.09B | 639.20M | 124.67M | 13.86B | 22938808 | 1577576 | 511882 | 25028266 |
| music_and_dance | 15.42B | 10.38B | 618.46M | 26.42B | 29566554 | 20233446 | 1998272 | 51798272 |
| news | 328.47B | 12.37B | 11.34B | 352.18B | 508567768 | 33206709 | 23482422 | 565256899 |
| nuclear_science | 559.05M | 79.89M | 78.79M | 717.72M | 784847 | 170282 | 133598 | 1088727 |
| ocean_science | 2.36B | 537.82M | 229.43M | 3.13B | 3700000 | 853052 | 425792 | 4978844 |
| optical_engineering | 2.33B | 253.06M | 263.99M | 2.85B | 3510836 | 535026 | 400371 | 4446233 |
| painting | 374.41M | 429.63M | 96.57M | 900.61M | 875783 | 824217 | 336203 | 2036203 |
| pet | 12.12B | 154.14M | 307.28M | 12.58B | 19624688 | 457635 | 778970 | 20861293 |
| petroleum_and_natural_gas_engineering | 950.08M | 515.05M | 121.56M | 1.59B | 1669447 | 899860 | 237843 | 2807150 |
| philosophy | 47.99B | 121.26M | 335.77M | 48.44B | 50396964 | 505275 | 1030405 | 51932644 |
| photo | 6.56B | 1.74B | 41.44M | 8.34B | 16194329 | 3901598 | 179607 | 20275534 |
| physics | 21.56B |
搜集汇总
数据集介绍

构建方式
FineFineWeb-test数据集的构建过程经过精心设计,首先通过精确去重和MinHash技术对原始数据进行去重处理,确保数据集的纯净性。随后,利用GPT-4对前100万个根URL进行标注,生成感兴趣域(DoI)和非感兴趣域(DoNI)的粗粒度URL作为种子数据源。接着,通过Qwen2-7B-Instruct模型对采样数据进行标注,并训练FastText模型进行粗召回,生成粗粒度感兴趣域数据。进一步,使用Qwen2-72B-Instruct模型对粗召回数据进行精细标注,并训练BERT模型进行精细召回,最终形成FineFineWeb的感兴趣域子集。整个过程经过三轮迭代,确保数据集的质量和多样性。
特点
FineFineWeb-test数据集的显著特点在于其精细的域划分和多轮迭代的数据召回机制。该数据集涵盖了多个细粒度领域,包括航空航天、农业、艺术、天文学等,每个领域都经过多轮标注和召回,确保数据的准确性和代表性。此外,数据集通过域与域之间的相似性分析和重复率分析,进一步优化了各领域数据的独特性和相关性,使得数据集在多领域任务中具有广泛的应用潜力。
使用方法
FineFineWeb-test数据集适用于多种自然语言处理任务,包括文本分类、文本生成和文本到文本生成等。用户可以通过加载该数据集进行模型训练和评估,特别是在多领域任务中,数据集的精细划分和高质量标注能够显著提升模型的泛化能力和性能。此外,数据集的构建流程和分析结果也为研究者提供了宝贵的参考,帮助他们在特定领域进行更深入的研究和模型优化。
背景与挑战
背景概述
FineFineWeb-test数据集是由M-A-P团队于2024年创建的一个全面研究细粒度领域网络语料库的项目。该数据集的核心研究问题在于如何从海量的网络数据中提取并分类出不同领域的细粒度文本数据,以支持自然语言处理任务,如文本分类、文本生成等。通过多轮迭代的数据采集与标注,FineFineWeb-test涵盖了从航空航天到社会学等多个领域的海量文本数据,总词数超过4.4万亿。这一数据集的构建不仅为多领域文本处理提供了丰富的资源,还为跨领域知识融合与模型训练提供了新的研究方向。
当前挑战
FineFineWeb-test数据集在构建过程中面临诸多挑战。首先,数据的去重与标注是一个复杂的过程,尤其是在处理海量数据时,如何高效地去除重复数据并确保标注的准确性是一个技术难题。其次,不同领域的文本数据在语言风格、专业术语等方面存在显著差异,如何在保持领域特性的同时进行有效的跨领域数据融合也是一个挑战。此外,数据集的构建涉及多轮迭代,如何在迭代过程中保持数据的一致性和质量也是一个重要的挑战。最后,如何评估不同领域数据之间的相似性与差异性,以及这些差异对模型性能的影响,也是该数据集面临的一个重要问题。
常用场景
经典使用场景
FineFineWeb-test数据集在细粒度领域文本分类和生成任务中展现了其经典应用场景。该数据集通过多轮迭代的数据采样和标注,构建了涵盖多个领域的精细语料库,特别适用于需要高精度领域知识的文本分类和生成任务。例如,在航空航天、生物学和计算机科学等领域的文本分类任务中,FineFineWeb-test能够提供丰富的领域特定数据,帮助模型更好地理解和生成相关领域的文本。
衍生相关工作
FineFineWeb-test数据集的发布催生了一系列相关研究工作。研究者们基于该数据集开展了多领域的文本分类和生成模型研究,提出了多种领域自适应和数据增强技术。此外,该数据集还被用于评估不同模型的领域泛化能力,推动了领域特定模型的优化和改进。相关工作不仅提升了模型在细粒度领域的表现,也为跨领域文本处理提供了新的思路和方法。
数据集最近研究
最新研究方向
FineFineWeb-test数据集在细粒度领域网络语料库研究中展现了其前沿性,尤其是在多领域文本分类和生成任务中的应用。该数据集通过多轮迭代的数据构建流程,结合GPT-4和Qwen2-7B-Instruct等先进模型进行数据标注和召回,显著提升了数据的质量和多样性。特别是在域间相似性分析和域间重复性分析方面,FineFineWeb-test通过计算MMD距离和Wasserstein距离,揭示了不同领域间的知识分布差异,为跨领域知识融合提供了新的视角。此外,该数据集在域与基准测试的BPC-Acc相关性分析中,展示了STEM领域与数学、物理等学科的高度相关性,进一步验证了其在科学研究中的重要性。FineFineWeb-test的这些特性使其成为当前自然语言处理领域中细粒度数据集研究的热点,推动了多领域知识融合与应用的发展。
以上内容由遇见数据集搜集并总结生成



