【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72
FineFineWeb
收藏Hugging Face2024-12-19 更新2024-12-20 收录
下载链接:
https://huggingface.co/datasets/m-a-p/FineFineWeb
下载链接
链接失效反馈官方服务:
资源简介:
FineFineWeb是一个关于细粒度领域网络语料库的综合研究数据集。该数据集设计用于多种自然语言处理任务,如文本分类、文本生成和文本到文本生成。它包含来自多个领域的数据,每个领域在不同迭代中都有特定的标记和样本计数。数据构建流程包括去重、URL标记、粗召回和细召回过程,以及迭代优化。数据集还包括领域间相似性、重复性和与基准相关性的分析。该数据集采用Apache 2.0许可证,并且仅提供英文版本。
提供机构:
Multimodal Art Projection
创建时间:
2024-12-14
原始信息汇总
FineFineWeb: A Comprehensive Study on Fine-Grained Domain Web Corpus
数据集概述
FineFineWeb 是一个关于细粒度领域网络语料库的综合研究数据集。该数据集涵盖了多个领域的文本数据,适用于文本分类、文本生成和文本到文本生成等任务。
数据集统计
数据集包含多个领域的文本数据,每个领域的数据量和样本数量如下:
| 领域 (tokens/samples) | 迭代1 tokens | 迭代2 tokens | 迭代3 tokens | 总tokens | 迭代1 样本数 | 迭代2 样本数 | 迭代3 样本数 | 总样本数 |
|---|---|---|---|---|---|---|---|---|
| aerospace | 5.77B | 261.63M | 309.33M | 6.34B | 9100000 | 688505 | 611034 | 10399539 |
| agronomy | 13.08B | 947.41M | 229.04M | 14.26B | 15752828 | 2711790 | 649404 | 19114022 |
| artistic | 178.25B | 5.79B | 3.75B | 187.80B | 314279703 | 16113512 | 9957104 | 340350319 |
| astronomy | 5.20B | 134.39M | 54.66M | 5.38B | 7596521 | 357647 | 145832 | 8100000 |
| atmospheric_science | 2.80B | 102.04M | 259.25M | 3.16B | 5709537 | 267789 | 525969 | 6503295 |
| automotive | 36.72B | 436.34M | 911.65M | 38.07B | 60239679 | 1166729 | 1535882 | 62942290 |
| beauty | 19.10B | 671.88M | 1.01B | 20.78B | 34787376 | 1808382 | 2201810 | 38797568 |
| biology | 85.84B | 371.29M | 776.99M | 86.99B | 81413569 | 995384 | 1350348 | 83759301 |
| celebrity | 9.63B | 706.41M | 4.22B | 14.56B | 19831188 | 1803788 | 7949240 | 29584216 |
| chemistry | 27.80B | 588.92M | 131.46M | 28.52B | 31188189 | 1499085 | 328038 | 33015312 |
| christianity | 47.72B | 403.68M | 732.55M | 48.86B | 55013147 | 1349874 | 2021458 | 58384479 |
| civil_engineering | 8.85B | 1.27B | 402.91M | 10.52B | 13591632 | 2683940 | 940742 | 17216314 |
| communication_engineering | 9.21B | 3.60B | 327.66M | 13.14B | 13001767 | 5959526 | 746495 | 19707788 |
| computer_science_and_technology | 194.46B | 3.95B | 4.76B | 203.16B | 278420434 | 10263521 | 8654255 | 297338210 |
| design | 96.58B | 3.80B | 450.00M | 100.82B | 190275603 | 16653588 | 2090515 | 209019706 |
| drama_and_film | 19.12B | 10.86B | 206.27M | 30.19B | 33117478 | 18443259 | 564251 | 52124988 |
| economics | 205.01B | 1.23B | 2.63B | 208.87B | 263965085 | 3874091 | 5505880 | 273345056 |
| electronic_science | 30.19B | 7.76B | 482.62M | 38.43B | 42745767 | 12572747 | 1115605 | 56434119 |
| entertainment | 152.92B | 1.67B | 5.06B | 159.65B | 256935144 | 5801081 | 9648023 | 272384248 |
| environmental_science | 56.98B | 1.48B | 920.77M | 59.37B | 84500393 | 3557056 | 1966731 | 90024180 |
| fashion | 18.72B | 977.27M | 264.01M | 19.96B | 53465628 | 3926500 | 1346988 | 58739116 |
| finance | 146.39B | 327.45M | 1.13B | 147.85B | 187797764 | 1295893 | 3058801 | 192152458 |
| food | 56.10B | 136.32M | 978.91M | 57.22B | 96485838 | 613875 | 3051981 | 100151694 |
| gamble | 30.12B | 696.52M | 158.48M | 30.98B | 24909037 | 770540 | 164168 | 25843745 |
| game | 43.47B | 2.36B | 2.68B | 48.51B | 65680699 | 4670033 | 3720700 | 74071432 |
| geography | 110.18B | 1.16B | 192.67M | 111.53B | 161677214 | 3835932 | 559447 | 166072593 |
| health | 191.20B | 427.93M | 18.43B | 210.06B | 215747152 | 1291215 | 23975955 | 241014322 |
| history | 45.27B | 1.56B | 1.69B | 48.52B | 55710432 | 4167508 | 3463033 | 63340973 |
| hobby | 150.23B | 42.78B | 44.05B | 237.06B | 276636362 | 81360893 | 71407735 | 429404990 |
| hydraulic_engineering | 57.36M | 75.40M | 3.65M | 136.41M | 135079 | 163299 | 13453 | 311831 |
| instrument_science | 5.35B | 2.02B | 165.43M | 7.54B | 8307736 | 2904274 | 462256 | 11674266 |
| journalism_and_media_communication | 440.98B | 21.00B | 1.55B | 463.53B | 645801807 | 50657668 | 4909008 | 701368483 |
| landscape_architecture | 3.07B | 557.66M | 64.76M | 3.70B | 5613141 | 1138409 | 166526 | 6918076 |
| law | 128.58B | 455.19M | 2.38B | 131.42B | 166473205 | 1660944 | 6145032 | 174279181 |
| library | 57.16B | 5.01B | 36.56M | 62.21B | 86592305 | 10440991 | 153014 | 97186310 |
| literature | 71.07B | 7.01B | 67.53B | 145.61B | 71191075 | 13247806 | 54760578 | 139199459 |
| materials_science | 17.79B | 1.11B | 303.66M | 19.20B | 22136519 | 1663376 | 708384 | 24508279 |
| mathematics | 5.87B | 50.33M | 261.65M | 6.18B | 10131933 | 179592 | 653050 | 10964575 |
| mechanical_engineering | 86.13B | 1.24B | 129.96M | 87.49B | 111778813 | 3201605 | 428714 | 115409132 |
| medical | 140.03B | 813.46M | 4.97B | 145.81B | 149594634 | 2266477 | 8527901 | 160389012 |
| mining_engineering | 7.26B | 206.05M | 529.02M | 8.00B | 5540631 | 236145 | 468458 | 6245234 |
| movie | 13.09B | 639.20M | 124.67M | 13.86B | 22938808 | 1577576 | 511882 | 25028266 |
| music_and_dance | 15.42B | 10.38B | 618.46M | 26.42B | 29566554 | 20233446 | 1998272 | 51798272 |
| news | 328.47B | 12.37B | 11.34B | 352.18B | 508567768 | 33206709 | 23482422 | 565256899 |
| nuclear_science | 559.05M | 79.89M | 78.79M | 717.72M | 784847 | 170282 | 133598 | 1088727 |
| ocean_science | 2.36B | 537.82M | 229.43M | 3.13B | 3700000 | 853052 | 425792 | 4978844 |
| optical_engineering | 2.33B | 253.06M | 263.99M | 2.85B | 3510836 | 535026 | 400371 | 4446233 |
| painting | 374.41M | 429.63M | 96.57M | 900.61M | 875783 | 824217 | 336203 | 2036203 |
| pet | 12.12B | 154.14M | 307.28M | 12.58B | 19624688 | 457635 | 778970 | 20861293 |
| petroleum_and_natural_gas_engineering | 950.08M | 515.05M | 121.56M | 1.59B | 1669447 | 899860 | 237843 | 2807150 |
| philosophy | 47.99B | 121.26M | 335.77M | 48.44B | 50396964 | 505275 | 1030405 | 51932644 |
| photo | 6.56B | 1.74B | 41.44M | 8.34B | 16194329 | 3901598 | 179607 | 20275534 |
| physics | 21.5 |
搜集汇总
数据集介绍

构建方式
FineFineWeb数据集的构建过程采用了多阶段的精细处理方法。首先,通过精确去重和MinHash技术对原始数据进行去重,确保数据的唯一性。接着,利用GPT-4对前100万条根URL进行标注,生成感兴趣域(DoI)和非感兴趣域(DoNI)的粗粒度URL作为种子数据。随后,通过Qwen2-7B-Instruct模型对采样数据进行标注,并训练FastText模型进行粗召回,生成粗粒度的DoI数据。进一步,使用Qwen2-72B-Instruct模型对粗召回数据进行精细标注,并训练BERT模型进行精细召回,最终形成FineFineWeb数据集的核心部分。整个过程经过三轮迭代,确保数据的准确性和丰富性。
特点
FineFineWeb数据集的显著特点在于其广泛覆盖的领域和精细的分类。该数据集涵盖了从航空航天到社会学等50多个领域,每个领域都经过多轮的粗召回和精细召回处理,确保数据的多样性和高质量。此外,数据集通过域内相似性分析和域间重复率分析,进一步优化了各领域数据的独特性和相关性。这种多维度的数据处理方式使得FineFineWeb在文本分类、文本生成等任务中具有极高的应用价值。
使用方法
FineFineWeb数据集适用于多种自然语言处理任务,包括文本分类、文本生成和文本到文本生成等。用户可以通过加载数据集并根据任务需求进行数据预处理,如分词、特征提取等。数据集提供了详细的统计信息和领域分类,便于用户根据具体应用场景选择合适的数据子集。此外,数据集的构建流程和领域相似性分析结果也为用户提供了深入理解数据结构和特性的途径,有助于更有效地利用数据进行模型训练和评估。
背景与挑战
背景概述
FineFineWeb数据集是由M-A-P团队于2024年创建的一个综合性细粒度领域网络语料库,旨在解决大规模文本分类、文本生成和文本到文本生成等任务。该数据集涵盖了从航空航天到社会学等多个领域的海量文本数据,总计超过4.4万亿个标记,涉及超过65亿个样本。FineFineWeb的构建不仅为自然语言处理领域提供了丰富的资源,还通过多轮迭代的数据处理流程,确保了数据的质量和多样性。该数据集的核心研究问题是如何在多领域、多任务的背景下,构建一个高效且具有广泛适用性的文本数据集,从而推动相关领域的技术进步。
当前挑战
FineFineWeb数据集在构建过程中面临了多个挑战。首先,数据的去重和标注工作复杂且耗时,尤其是在使用GPT-4和Qwen2-7B-Instruct等先进模型进行标注时,确保标注的准确性和一致性是一个巨大的挑战。其次,数据的多领域特性使得在不同领域之间进行相似性分析和去重变得尤为困难,尤其是在处理高频重复的URL时,如何有效区分不同领域的独特内容是一个技术难题。此外,数据集的构建还需要考虑如何平衡不同领域之间的数据分布,以确保模型在不同任务上的泛化能力。最后,如何在高维数据中进行有效的特征提取和模型训练,以应对大规模数据的处理需求,也是该数据集面临的一个重要挑战。
常用场景
经典使用场景
FineFineWeb数据集在细粒度领域文本分类任务中展现了其经典应用场景。该数据集通过多轮迭代的数据采样与标注,构建了涵盖多个领域的精细化语料库,特别适用于需要高精度领域分类的场景。例如,在航空航天、生物学和计算机科学等领域的文本分类任务中,FineFineWeb能够提供丰富的领域特定语料,帮助模型更准确地识别和分类不同领域的文本。
实际应用
在实际应用中,FineFineWeb数据集广泛应用于多个领域的文本处理任务,如新闻分类、学术文献检索和专业知识问答系统。例如,在新闻分类中,该数据集可以帮助系统更精确地识别和分类不同领域的新闻内容,从而提升用户体验。此外,在学术文献检索中,FineFineWeb能够帮助研究者快速定位与其研究领域相关的文献,提高科研效率。
衍生相关工作
FineFineWeb数据集的发布催生了一系列相关的经典工作,特别是在领域特定模型的训练与评估方面。例如,基于该数据集,研究者开发了多种领域特定的BERT模型,用于提升领域内的文本理解和生成能力。此外,该数据集还促进了跨领域知识融合的研究,推动了多领域协同效应的探索,为未来的自然语言处理研究提供了新的方向和思路。
以上内容由遇见数据集搜集并总结生成



