five

FineWeb 2

收藏
github2024-12-08 更新2024-12-10 收录
下载链接:
https://github.com/huggingface/fineweb-2
下载链接
链接失效反馈
官方服务:
资源简介:
FineWeb 2是受欢迎的FineWeb数据集的第二版,为超过1000种语言提供高质量的预训练数据。该数据集经过多语言设置的复杂处理管道,包括语言识别、去重和过滤等步骤。

FineWeb-2 is the second iteration of the popular FineWeb dataset, offering high-quality pre-training data for over 1000 languages. This dataset is processed via a sophisticated multilingual processing pipeline that includes steps such as language identification, deduplication and filtering.
创建时间:
2024-12-06
原始信息汇总

FineWeb 2 数据集概述

数据集简介

FineWeb 2 是 FineWeb 数据集的第二版,提供了高质量的预训练数据,支持超过 1000 种语言。

数据处理流程

语言识别

  • 使用 GlotLID 进行语言识别,覆盖 2000 多种语言,并识别文档使用的脚本。
  • 为每种语言定义了不同的最小语言分类器置信度分数以保留文档。

去重

  • 数据按语言全局去重,而非按 CommonCrawl 快照去重。
  • 保留文档的元数据中保存了去重集群的大小 (minhash_cluster_size),允许根据集群大小进行数据重构。

数据过滤

  • 保留了 FineWeb 的原始过滤器集,未针对个别语言创建新过滤器。
  • 对英语过滤器进行了广泛调整,以适应所有支持的语言。
  • 禁用了部分过滤器,如 short_line_thrchar_dup_ratio 从 0.01 调整为 0.1。

PII 匿名化和修复

  • 保留了 PII 移除功能,对电子邮件和 IP 地址进行匿名化。
  • 使用 FTFY 修复编码问题。
  • 添加代码修复 trafilatura 创建的与表格相关的工件。

实验与评估

  • 每个管道步骤都经过精心测试,使用 FineTasks 评估套件进行评估。
  • 提供了评估和训练代码,确保透明度。

其他

词/句子分词

  • 开发了一种基于语言家族自动分配相似分词器的方法。

参考数据集

  • 提供了用于下载和处理参考数据集的代码。

工具版本

  • 使用 Datatrove、LightEval-Fork (new-multi-lang-branch) 和 Nanotron 等工具。

许可证

  • 数据集保留了与原始 FineWeb 相同的许可证,即 Open Data Commons License Attribution family (ODC-By)。
  • 代码库中的代码使用 Apache 2.0 许可证。

引用

bibtex @software{penedo2024fineweb-2, author = {Penedo, Guilherme and Kydlíček, Hynek and Sabolčec, Vinko and Messmer, Bettina and Foroutan, Negar and Jaggi, Martin and von Werra, Leandro and Wolf, Thomas}, title = {FineWeb2: A sparkling update with 1000s of languages}, month = dec, year = 2024, doi = { }, url = {https://huggingface.co/datasets/HuggingFaceFW/fineweb-2} }

搜集汇总
数据集介绍
main_image_url
构建方式
FineWeb 2数据集的构建过程经过精心设计,以适应多语言环境的复杂性。首先,数据集的起点是原始FineWeb处理过程中未达到英语评分0.65的非英语数据。随后,通过GlotLID工具进行语言识别,该工具不仅覆盖了2000多种语言,还能识别文档中使用的脚本。每个语言的文档都根据其语言分类器的置信度进行过滤。接着,数据集在全局范围内按语言进行去重处理,保留每个重复集群中的一个文档,并在元数据中记录集群大小,以便后续的‘再水化’处理。最后,通过PII匿名化和编码修复,确保数据的安全性和一致性。
特点
FineWeb 2数据集的主要特点在于其多语言适应性和高质量的数据处理。该数据集覆盖了超过1000种语言,每种语言都经过单独的过滤和调整,确保数据的质量和适用性。此外,数据集采用了全局去重策略,不同于FineWeb的按快照去重,这使得数据集在多语言环境下的表现更为出色。通过‘再水化’技术,数据集能够根据集群大小进行重采样,从而提升某些高资源语言的性能。
使用方法
FineWeb 2数据集的使用方法相对直接,用户可以通过HuggingFace的仓库直接访问和下载数据。数据集的预处理步骤包括语言识别、去重、过滤和PII匿名化,这些步骤确保了数据的高质量和安全性。用户可以根据需要调整配置文件中的参数,如语言识别的置信度阈值和去重策略。此外,数据集提供了详细的评估和训练代码,用户可以通过这些代码进行模型的训练和评估,以验证数据集的有效性和适用性。
背景与挑战
背景概述
FineWeb 2数据集是广受欢迎的FineWeb数据集的第二代版本,旨在为超过1000种语言提供高质量的预训练数据。该数据集由HuggingFaceFW团队开发,主要研究人员包括Guilherme Penedo、Hynek Kydlíček等。FineWeb 2的核心研究问题是如何在多语言环境中高效地进行数据预处理和过滤,以确保数据的质量和多样性。该数据集的发布对自然语言处理领域具有重要影响,特别是在多语言模型训练和跨语言迁移学习方面,为研究人员提供了丰富的资源和工具。
当前挑战
FineWeb 2数据集在构建过程中面临多项挑战。首先,多语言环境下的数据处理需要针对每种语言的特性进行个性化调整,包括语言识别、去重和过滤等步骤。其次,数据的去重策略在FineWeb 2中进行了全局优化,但仍需进一步探索不同的上采样权重以提升性能。此外,数据过滤过程中,如何将英语过滤器适应于所有支持的语言也是一个复杂的问题。最后,PII匿名化和编码问题的修复虽然保持了数据的安全性,但增加了处理的复杂性。
常用场景
经典使用场景
在自然语言处理领域,FineWeb 2数据集的经典使用场景主要体现在多语言预训练模型的构建与优化。该数据集通过精细的语言识别和过滤机制,为超过1000种语言提供了高质量的预训练数据。研究者可以利用这些数据进行跨语言模型的训练,从而提升模型在多语言环境下的表现。此外,数据集的重复数据删除和PII匿名化处理,进一步确保了数据的质量和隐私安全,使得模型训练更加可靠和高效。
实际应用
在实际应用中,FineWeb 2数据集被广泛用于构建和优化多语言支持的智能系统,如多语言搜索引擎、跨语言翻译服务和多语言内容推荐系统。通过利用该数据集进行预训练,这些系统能够在多种语言环境下提供更加准确和一致的服务。此外,数据集的重复数据删除和PII匿名化处理,也确保了这些系统在实际应用中的数据安全和用户隐私保护。
衍生相关工作
基于FineWeb 2数据集,研究者们开发了多种多语言预训练模型,如跨语言BERT和多语言GPT,这些模型在多语言自然语言处理任务中表现出色。此外,数据集的精细处理方法也被应用于其他多语言数据集的构建和优化中,推动了多语言数据处理技术的发展。同时,数据集的PII匿名化处理方法也为其他领域的隐私保护研究提供了参考和借鉴。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作