FineFineWeb-bert-seeddata
收藏Hugging Face2024-12-19 更新2024-12-20 收录
下载链接:
https://huggingface.co/datasets/m-a-p/FineFineWeb-bert-seeddata
下载链接
链接失效反馈官方服务:
资源简介:
FineFineWeb数据集是一个关于细粒度领域网络语料库的综合研究。该数据集包含多个领域,如航空航天、农学、艺术、天文学等,每个领域在多个迭代中都有特定的令牌和样本计数。数据构建流程包括去重、URL标记、粗召回和细召回过程,以及迭代优化。数据集还包括领域间的相似性分析、重复性分析以及领域与基准之间的相关性研究。该数据集适用于文本分类、文本生成和文本到文本生成等任务,语言为英语,数据集规模为n>1T,表明这是一个非常大的数据集。
提供机构:
Multimodal Art Projection
创建时间:
2024-12-18
原始信息汇总
FineFineWeb: A Comprehensive Study on Fine-Grained Domain Web Corpus
数据集概述
FineFineWeb 是一个关于细粒度领域网络语料库的综合研究数据集。该数据集涵盖了多个领域的文本数据,适用于文本分类、文本生成和文本到文本生成等任务。
语言
- 英语 (en)
任务类别
- 文本分类
- 文本到文本生成
- 文本生成
数据统计
数据集包含多个领域的文本数据,每个领域的数据量和样本数量如下:
| 领域 (tokens/samples) | 迭代1 Tokens | 迭代2 Tokens | 迭代3 Tokens | 总Tokens | 迭代1 Count | 迭代2 Count | 迭代3 Count | 总Count |
|---|---|---|---|---|---|---|---|---|
| aerospace | 5.77B | 261.63M | 309.33M | 6.34B | 9100000 | 688505 | 611034 | 10399539 |
| agronomy | 13.08B | 947.41M | 229.04M | 14.26B | 15752828 | 2711790 | 649404 | 19114022 |
| artistic | 178.25B | 5.79B | 3.75B | 187.80B | 314279703 | 16113512 | 9957104 | 340350319 |
| astronomy | 5.20B | 134.39M | 54.66M | 5.38B | 7596521 | 357647 | 145832 | 8100000 |
| atmospheric_science | 2.80B | 102.04M | 259.25M | 3.16B | 5709537 | 267789 | 525969 | 6503295 |
| automotive | 36.72B | 436.34M | 911.65M | 38.07B | 60239679 | 1166729 | 1535882 | 62942290 |
| beauty | 19.10B | 671.88M | 1.01B | 20.78B | 34787376 | 1808382 | 2201810 | 38797568 |
| biology | 85.84B | 371.29M | 776.99M | 86.99B | 81413569 | 995384 | 1350348 | 83759301 |
| celebrity | 9.63B | 706.41M | 4.22B | 14.56B | 19831188 | 1803788 | 7949240 | 29584216 |
| chemistry | 27.80B | 588.92M | 131.46M | 28.52B | 31188189 | 1499085 | 328038 | 33015312 |
| christianity | 47.72B | 403.68M | 732.55M | 48.86B | 55013147 | 1349874 | 2021458 | 58384479 |
| civil_engineering | 8.85B | 1.27B | 402.91M | 10.52B | 13591632 | 2683940 | 940742 | 17216314 |
| communication_engineering | 9.21B | 3.60B | 327.66M | 13.14B | 13001767 | 5959526 | 746495 | 19707788 |
| computer_science_and_technology | 194.46B | 3.95B | 4.76B | 203.16B | 278420434 | 10263521 | 8654255 | 297338210 |
| design | 96.58B | 3.80B | 450.00M | 100.82B | 190275603 | 16653588 | 2090515 | 209019706 |
| drama_and_film | 19.12B | 10.86B | 206.27M | 30.19B | 33117478 | 18443259 | 564251 | 52124988 |
| economics | 205.01B | 1.23B | 2.63B | 208.87B | 263965085 | 3874091 | 5505880 | 273345056 |
| electronic_science | 30.19B | 7.76B | 482.62M | 38.43B | 42745767 | 12572747 | 1115605 | 56434119 |
| entertainment | 152.92B | 1.67B | 5.06B | 159.65B | 256935144 | 5801081 | 9648023 | 272384248 |
| environmental_science | 56.98B | 1.48B | 920.77M | 59.37B | 84500393 | 3557056 | 1966731 | 90024180 |
| fashion | 18.72B | 977.27M | 264.01M | 19.96B | 53465628 | 3926500 | 1346988 | 58739116 |
| finance | 146.39B | 327.45M | 1.13B | 147.85B | 187797764 | 1295893 | 3058801 | 192152458 |
| food | 56.10B | 136.32M | 978.91M | 57.22B | 96485838 | 613875 | 3051981 | 100151694 |
| gamble | 30.12B | 696.52M | 158.48M | 30.98B | 24909037 | 770540 | 164168 | 25843745 |
| game | 43.47B | 2.36B | 2.68B | 48.51B | 65680699 | 4670033 | 3720700 | 74071432 |
| geography | 110.18B | 1.16B | 192.67M | 111.53B | 161677214 | 3835932 | 559447 | 166072593 |
| health | 191.20B | 427.93M | 18.43B | 210.06B | 215747152 | 1291215 | 23975955 | 241014322 |
| history | 45.27B | 1.56B | 1.69B | 48.52B | 55710432 | 4167508 | 3463033 | 63340973 |
| hobby | 150.23B | 42.78B | 44.05B | 237.06B | 276636362 | 81360893 | 71407735 | 429404990 |
| hydraulic_engineering | 57.36M | 75.40M | 3.65M | 136.41M | 135079 | 163299 | 13453 | 311831 |
| instrument_science | 5.35B | 2.02B | 165.43M | 7.54B | 8307736 | 2904274 | 462256 | 11674266 |
| journalism_and_media_communication | 440.98B | 21.00B | 1.55B | 463.53B | 645801807 | 50657668 | 4909008 | 701368483 |
| landscape_architecture | 3.07B | 557.66M | 64.76M | 3.70B | 5613141 | 1138409 | 166526 | 6918076 |
| law | 128.58B | 455.19M | 2.38B | 131.42B | 166473205 | 1660944 | 6145032 | 174279181 |
| library | 57.16B | 5.01B | 36.56M | 62.21B | 86592305 | 10440991 | 153014 | 97186310 |
| literature | 71.07B | 7.01B | 67.53B | 145.61B | 71191075 | 13247806 | 54760578 | 139199459 |
| materials_science | 17.79B | 1.11B | 303.66M | 19.20B | 22136519 | 1663376 | 708384 | 24508279 |
| mathematics | 5.87B | 50.33M | 261.65M | 6.18B | 10131933 | 179592 | 653050 | 10964575 |
| mechanical_engineering | 86.13B | 1.24B | 129.96M | 87.49B | 111778813 | 3201605 | 428714 | 115409132 |
| medical | 140.03B | 813.46M | 4.97B | 145.81B | 149594634 | 2266477 | 8527901 | 160389012 |
| mining_engineering | 7.26B | 206.05M | 529.02M | 8.00B | 5540631 | 236145 | 468458 | 6245234 |
| movie | 13.09B | 639.20M | 124.67M | 13.86B | 22938808 | 1577576 | 511882 | 25028266 |
| music_and_dance | 15.42B | 10.38B | 618.46M | 26.42B | 29566554 | 20233446 | 1998272 | 51798272 |
| news | 328.47B | 12.37B | 11.34B | 352.18B | 508567768 | 33206709 | 23482422 | 565256899 |
| nuclear_science | 559.05M | 79.89M | 78.79M | 717.72M | 784847 | 170282 | 133598 | 1088727 |
| ocean_science | 2.36B | 537.82M | 229.43M | 3.13B | 3700000 | 853052 | 425792 | 4978844 |
| optical_engineering | 2.33B | 253.06M | 263.99M | 2.85B | 3510836 | 535026 | 400371 | 4446233 |
| painting | 374.41M | 429.63M | 96.57M | 900.61M | 875783 | 824217 | 336203 | 2036203 |
| pet | 12.12B | 154.14M | 307.28M | 12.58B | 19624688 | 457635 | 778970 | 20861293 |
| petroleum_and_natural_gas_engineering | 950.08M | 515.05M | 121.56M | 1.59B | 1669447 | 899860 | 237843 | 2807150 |
| philosophy | 47.99B | 121.26M | 335.77M | 48.44B | 50396964 | 505275 | 1030405 | 51932644 |
| photo | 6.56B | 1.74B | 41.44M | 8.34B | 16194329 | 39015 |
搜集汇总
数据集介绍

构建方式
FineFineWeb-bert-seeddata数据集的构建过程经过精心设计,采用了多阶段的精细处理。首先,通过精确去重和MinHash技术对原始数据进行去重,确保数据的唯一性。随后,利用GPT-4对前100万个根URL进行标注,生成感兴趣域(DoI)和非感兴趣域(DoNI)的粗粒度URL种子数据。接着,通过Qwen2-7B-Instruct模型对采样数据进行标注,并训练FastText模型进行粗召回,生成粗粒度DoI数据。进一步,使用Qwen2-72B-Instruct模型对粗召回数据进行精细标注,并训练BERT模型进行精细召回,最终形成FineFineWeb的DoI子集。整个流程经过三轮迭代,确保数据的准确性和覆盖率。
特点
FineFineWeb-bert-seeddata数据集的显著特点在于其多层次的精细构建和广泛的应用领域。该数据集涵盖了从航空航天到社会学等多个领域的海量文本数据,总词数超过4.4万亿,样本数量达到65亿。每个领域的数据经过多轮迭代处理,确保了数据的质量和多样性。此外,数据集通过域间相似性分析和域间重复率分析,进一步优化了数据的分布和独特性,使其在多领域任务中具有广泛的应用潜力。
使用方法
FineFineWeb-bert-seeddata数据集适用于多种自然语言处理任务,包括文本分类、文本生成和文本到文本生成等。用户可以通过加载该数据集进行模型训练和评估,特别是在需要处理多领域文本数据的场景中。数据集提供了详细的统计信息和构建流程,便于用户理解和使用。此外,数据集还支持域间相似性和重复率的分析,帮助用户更好地理解数据的分布和特性,从而优化模型的训练效果。
背景与挑战
背景概述
FineFineWeb-bert-seeddata数据集是由M-A-P等研究人员于2024年创建的,旨在通过细粒度领域网络语料库进行全面研究。该数据集的核心研究问题是如何在多个领域中高效地进行文本分类、文本生成和文本到文本生成任务。FineFineWeb通过多轮迭代的方式,结合GPT-4、Qwen2-7B-Instruct和BERT等先进模型,构建了一个包含4425.30万亿个标记的庞大语料库,涵盖了从航空航天到哲学等多个领域。该数据集的创建不仅推动了自然语言处理技术在多领域应用中的发展,还为跨领域知识融合提供了新的研究视角。
当前挑战
FineFineWeb-bert-seeddata数据集在构建过程中面临多项挑战。首先,数据的去重和标注过程复杂,需借助GPT-4和Qwen2-7B-Instruct等模型进行精细处理,确保数据的高质量和多样性。其次,多轮迭代的粗召回和细召回过程需要不断调整模型参数,以提高召回率和准确性。此外,不同领域之间的相似性和重复性分析也是一个重要挑战,需通过TF-IDF等方法进行深入分析,以确保各领域数据的独特性和代表性。最后,如何将不同领域的数据有效整合,以支持跨领域的文本生成和分类任务,也是该数据集面临的一大难题。
常用场景
经典使用场景
FineFineWeb-bert-seeddata数据集的经典使用场景主要集中在细粒度领域文本分类和生成任务上。由于该数据集涵盖了多个领域的海量文本数据,研究人员可以利用其进行领域特定的文本分类、文本生成以及文本到文本的生成任务。例如,在航空航天领域,可以通过该数据集训练模型,自动生成技术文档或进行领域知识问答;在艺术领域,可以用于生成艺术评论或创作灵感。
衍生相关工作
FineFineWeb-bert-seeddata数据集的发布催生了一系列相关研究工作。例如,基于该数据集的细粒度文本分类模型在多个领域取得了显著进展,推动了领域特定语言模型的优化。此外,该数据集还被用于探索跨领域知识迁移和多任务学习,进一步拓展了其在自然语言处理领域的应用范围。相关研究成果已在多个顶级会议上发表,展示了其在学术界和工业界的影响力。
数据集最近研究
最新研究方向
FineFineWeb-bert-seeddata数据集在细粒度领域语料库研究中展现了显著的前沿性。该数据集通过多轮迭代的数据构建流程,结合GPT-4和Qwen2-7B-Instruct等先进模型,实现了对海量网页数据的精细化分类与生成。其研究方向主要集中在跨领域相似性分析、领域内数据去重以及领域与基准测试的关联性研究。这些研究不仅揭示了不同领域数据间的内在联系,还为模型在多领域任务中的泛化能力提供了新的视角。此外,FineFineWeb的构建方法为未来大规模语料库的构建提供了可复制的范例,对推动自然语言处理技术在各领域的深入应用具有重要意义。
以上内容由遇见数据集搜集并总结生成



