FineFineWeb-sample
收藏Hugging Face2024-12-19 更新2024-12-20 收录
下载链接:
https://huggingface.co/datasets/m-a-p/FineFineWeb-sample
下载链接
链接失效反馈官方服务:
资源简介:
FineFineWeb是一个关于细粒度领域网络语料库的综合研究数据集。该数据集主要用于文本分类、文本生成和文本到文本生成任务,涵盖了多个领域,每个领域在不同迭代中都有特定的标记和样本数量。数据构建流程包括去重、URL标记、粗召回和细召回,以及迭代优化。数据集还包含领域间相似性、重复性和与基准测试的相关性分析。数据集采用Apache 2.0许可证。
提供机构:
Multimodal Art Projection
创建时间:
2024-12-18
原始信息汇总
FineFineWeb: A Comprehensive Study on Fine-Grained Domain Web Corpus
数据集概述
FineFineWeb 是一个关于细粒度领域网络语料库的综合研究数据集。该数据集涵盖了多个领域的文本数据,适用于文本分类、文本生成和文本到文本生成等任务。
数据集统计
数据集包含多个领域的文本数据,每个领域的数据量和样本数量如下:
| 领域 (#tokens/#samples) | 迭代1 Tokens | 迭代2 Tokens | 迭代3 Tokens | 总Tokens | 迭代1 Count | 迭代2 Count | 迭代3 Count | 总Count |
|---|---|---|---|---|---|---|---|---|
| aerospace | 5.77B | 261.63M | 309.33M | 6.34B | 9100000 | 688505 | 611034 | 10399539 |
| agronomy | 13.08B | 947.41M | 229.04M | 14.26B | 15752828 | 2711790 | 649404 | 19114022 |
| artistic | 178.25B | 5.79B | 3.75B | 187.80B | 314279703 | 16113512 | 9957104 | 340350319 |
| astronomy | 5.20B | 134.39M | 54.66M | 5.38B | 7596521 | 357647 | 145832 | 8100000 |
| atmospheric_science | 2.80B | 102.04M | 259.25M | 3.16B | 5709537 | 267789 | 525969 | 6503295 |
| automotive | 36.72B | 436.34M | 911.65M | 38.07B | 60239679 | 1166729 | 1535882 | 62942290 |
| beauty | 19.10B | 671.88M | 1.01B | 20.78B | 34787376 | 1808382 | 2201810 | 38797568 |
| biology | 85.84B | 371.29M | 776.99M | 86.99B | 81413569 | 995384 | 1350348 | 83759301 |
| celebrity | 9.63B | 706.41M | 4.22B | 14.56B | 19831188 | 1803788 | 7949240 | 29584216 |
| chemistry | 27.80B | 588.92M | 131.46M | 28.52B | 31188189 | 1499085 | 328038 | 33015312 |
| christianity | 47.72B | 403.68M | 732.55M | 48.86B | 55013147 | 1349874 | 2021458 | 58384479 |
| civil_engineering | 8.85B | 1.27B | 402.91M | 10.52B | 13591632 | 2683940 | 940742 | 17216314 |
| communication_engineering | 9.21B | 3.60B | 327.66M | 13.14B | 13001767 | 5959526 | 746495 | 19707788 |
| computer_science_and_technology | 194.46B | 3.95B | 4.76B | 203.16B | 278420434 | 10263521 | 8654255 | 297338210 |
| design | 96.58B | 3.80B | 450.00M | 100.82B | 190275603 | 16653588 | 2090515 | 209019706 |
| drama_and_film | 19.12B | 10.86B | 206.27M | 30.19B | 33117478 | 18443259 | 564251 | 52124988 |
| economics | 205.01B | 1.23B | 2.63B | 208.87B | 263965085 | 3874091 | 5505880 | 273345056 |
| electronic_science | 30.19B | 7.76B | 482.62M | 38.43B | 42745767 | 12572747 | 1115605 | 56434119 |
| entertainment | 152.92B | 1.67B | 5.06B | 159.65B | 256935144 | 5801081 | 9648023 | 272384248 |
| environmental_science | 56.98B | 1.48B | 920.77M | 59.37B | 84500393 | 3557056 | 1966731 | 90024180 |
| fashion | 18.72B | 977.27M | 264.01M | 19.96B | 53465628 | 3926500 | 1346988 | 58739116 |
| finance | 146.39B | 327.45M | 1.13B | 147.85B | 187797764 | 1295893 | 3058801 | 192152458 |
| food | 56.10B | 136.32M | 978.91M | 57.22B | 96485838 | 613875 | 3051981 | 100151694 |
| gamble | 30.12B | 696.52M | 158.48M | 30.98B | 24909037 | 770540 | 164168 | 25843745 |
| game | 43.47B | 2.36B | 2.68B | 48.51B | 65680699 | 4670033 | 3720700 | 74071432 |
| geography | 110.18B | 1.16B | 192.67M | 111.53B | 161677214 | 3835932 | 559447 | 166072593 |
| health | 191.20B | 427.93M | 18.43B | 210.06B | 215747152 | 1291215 | 23975955 | 241014322 |
| history | 45.27B | 1.56B | 1.69B | 48.52B | 55710432 | 4167508 | 3463033 | 63340973 |
| hobby | 150.23B | 42.78B | 44.05B | 237.06B | 276636362 | 81360893 | 71407735 | 429404990 |
| hydraulic_engineering | 57.36M | 75.40M | 3.65M | 136.41M | 135079 | 163299 | 13453 | 311831 |
| instrument_science | 5.35B | 2.02B | 165.43M | 7.54B | 8307736 | 2904274 | 462256 | 11674266 |
| journalism_and_media_communication | 440.98B | 21.00B | 1.55B | 463.53B | 645801807 | 50657668 | 4909008 | 701368483 |
| landscape_architecture | 3.07B | 557.66M | 64.76M | 3.70B | 5613141 | 1138409 | 166526 | 6918076 |
| law | 128.58B | 455.19M | 2.38B | 131.42B | 166473205 | 1660944 | 6145032 | 174279181 |
| library | 57.16B | 5.01B | 36.56M | 62.21B | 86592305 | 10440991 | 153014 | 97186310 |
| literature | 71.07B | 7.01B | 67.53B | 145.61B | 71191075 | 13247806 | 54760578 | 139199459 |
| materials_science | 17.79B | 1.11B | 303.66M | 19.20B | 22136519 | 1663376 | 708384 | 24508279 |
| mathematics | 5.87B | 50.33M | 261.65M | 6.18B | 10131933 | 179592 | 653050 | 10964575 |
| mechanical_engineering | 86.13B | 1.24B | 129.96M | 87.49B | 111778813 | 3201605 | 428714 | 115409132 |
| medical | 140.03B | 813.46M | 4.97B | 145.81B | 149594634 | 2266477 | 8527901 | 160389012 |
| mining_engineering | 7.26B | 206.05M | 529.02M | 8.00B | 5540631 | 236145 | 468458 | 6245234 |
| movie | 13.09B | 639.20M | 124.67M | 13.86B | 22938808 | 1577576 | 511882 | 25028266 |
| music_and_dance | 15.42B | 10.38B | 618.46M | 26.42B | 29566554 | 20233446 | 1998272 | 51798272 |
| news | 328.47B | 12.37B | 11.34B | 352.18B | 508567768 | 33206709 | 23482422 | 565256899 |
| nuclear_science | 559.05M | 79.89M | 78.79M | 717.72M | 784847 | 170282 | 133598 | 1088727 |
| ocean_science | 2.36B | 537.82M | 229.43M | 3.13B | 3700000 | 853052 | 425792 | 4978844 |
| optical_engineering | 2.33B | 253.06M | 263.99M | 2.85B | 3510836 | 535026 | 400371 | 4446233 |
| painting | 374.41M | 429.63M | 96.57M | 900.61M | 875783 | 824217 | 336203 | 2036203 |
| pet | 12.12B | 154.14M | 307.28M | 12.58B | 19624688 | 457635 | 778970 | 20861293 |
| petroleum_and_natural_gas_engineering | 950.08M | 515.05M | 121.56M | 1.59B | 1669447 | 899860 | 237843 | 2807150 |
| philosophy | 47.99B | 121.26M | 335.77M | 48.44B | 50396964 | 505275 | 1030405 | 51932644 |
| photo | 6.56B | 1.74B | 41.44M | 8.34B | 16194329 | 3901598 | 179607 | 20275534 |
| physics | 21.56B |
搜集汇总
数据集介绍

构建方式
FineFineWeb-sample数据集的构建过程经过精心设计,首先通过精确去重和MinHash技术对原始数据进行去重处理,确保数据集的纯净性。随后,利用GPT-4对前100万个根URL进行标注,生成域感兴趣(DoI)和域不感兴趣(DoNI)的粗粒度URL作为种子数据。接着,通过Qwen2-7B-Instruct模型对采样数据进行标注,并训练FastText模型进行粗召回,生成粗粒度DoI数据。进一步,使用Qwen2-72B-Instruct模型对粗召回数据进行精细标注,并训练BERT模型进行精细召回,最终形成FineFineWeb的DoI子集。整个过程经过三轮迭代,确保数据集的质量和多样性。
特点
FineFineWeb-sample数据集的显著特点在于其高度细粒度的领域划分和丰富的数据量。数据集涵盖了从航空航天到社会学等多个领域,每个领域都经过多轮迭代和精细标注,确保数据的准确性和代表性。此外,数据集通过域与域之间的相似性分析和重复率分析,进一步优化了各领域数据的独特性和相关性,使得该数据集在多领域任务中具有广泛的应用潜力。
使用方法
FineFineWeb-sample数据集适用于多种自然语言处理任务,包括文本分类、文本生成和文本到文本生成等。用户可以通过加载该数据集,利用其丰富的领域数据进行模型训练和评估。特别是在需要跨领域知识融合的任务中,该数据集能够提供高质量的训练样本。此外,数据集的构建流程和标注方法也为用户提供了参考,帮助其在特定领域内进行数据集的定制和优化。
背景与挑战
背景概述
FineFineWeb-sample数据集是由M-A-P等研究机构于2024年推出的一个综合性细粒度领域网络语料库研究项目。该数据集的核心研究问题在于通过大规模的网络数据构建,探索不同领域之间的知识分布与相似性,旨在为自然语言处理任务提供丰富的多领域语料支持。FineFineWeb-sample涵盖了从航空航天到社会学等多个领域的海量文本数据,总计超过4.4万亿个标记,展示了其在多领域文本分类、文本生成等任务中的巨大潜力。该数据集的构建不仅推动了细粒度领域语料库的研究,还为跨领域知识融合与迁移学习提供了新的视角。
当前挑战
FineFineWeb-sample数据集在构建过程中面临诸多挑战。首先,数据的去重与标注工作极为复杂,需通过精确去重和MinHash技术去除冗余数据,并利用GPT-4对大量URL进行标注,以生成高质量的种子数据。其次,在粗召回与细召回的迭代过程中,如何确保模型的召回精度与数据质量是一个关键挑战。此外,不同领域之间的相似性分析与重复率评估需要精确的计算与分析方法,以确保数据集的多样性与独特性。最后,跨领域的知识分布与模型性能的相关性分析,进一步增加了数据集的复杂性与研究难度。
常用场景
经典使用场景
FineFineWeb-sample数据集在细粒度领域文本分类、文本生成和文本到文本生成任务中展现了其经典应用场景。该数据集通过丰富的领域细分,为模型提供了多样的训练样本,尤其在处理跨领域文本生成和分类任务时表现出色。例如,在航空航天、艺术和生物学等领域的文本生成任务中,模型能够生成高质量、领域特定的文本内容,从而满足不同领域的专业需求。
解决学术问题
FineFineWeb-sample数据集解决了细粒度领域文本处理中的多个学术研究问题。首先,它通过多轮迭代的数据精炼过程,有效去除了冗余数据,提升了数据质量。其次,该数据集通过领域间的相似性分析,揭示了不同领域间的知识重叠与差异,为跨领域知识迁移提供了理论支持。此外,数据集的构建方法还为大规模文本数据的处理和标注提供了新的技术路径。
衍生相关工作
FineFineWeb-sample数据集的发布催生了一系列相关研究工作。首先,基于该数据集的领域相似性分析,研究者们提出了多种跨领域知识迁移模型,显著提升了模型的泛化能力。其次,数据集的多轮迭代精炼方法被广泛应用于其他大规模文本数据的处理中,推动了数据清洗和标注技术的发展。此外,FineFineWeb-sample还为多个领域的文本生成和分类模型提供了基准测试数据,促进了相关算法的优化与创新。
以上内容由遇见数据集搜集并总结生成



