five

tiiuae/falcon-refinedweb

收藏
Hugging Face2023-06-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tiiuae/falcon-refinedweb
下载链接
链接失效反馈
资源简介:
--- dataset_info: features: - name: content dtype: string - name: url dtype: string - name: timestamp dtype: timestamp[s] - name: dump dtype: string - name: segment dtype: string - name: image_urls sequence: sequence: string splits: - name: train num_bytes: 2766953721769 num_examples: 968000015 download_size: 466888198663 dataset_size: 2766953721769 license: odc-by task_categories: - text-generation language: - en pretty_name: Falcon RefinedWeb size_categories: - 100B<n<1T --- # 📀 Falcon RefinedWeb **Falcon RefinedWeb is a massive English web dataset built by [TII](https://www.tii.ae) and released under an ODC-By 1.0 license.** See the 📓 [paper on arXiv](https://arxiv.org/abs/2306.01116) for more details. RefinedWeb is built through stringent filtering and large-scale deduplication of CommonCrawl; we found models trained on RefinedWeb to achieve performance in-line or better than models trained on curated datasets, while only relying on web data. RefinedWeb is also "multimodal-friendly": it contains links and alt texts for images in processed samples. This public extract should contain 500-650GT depending on the tokenizer you use, and can be enhanced with the curated corpora of your choosing. This public extract is about ~500GB to download, requiring 2.8TB of local storage once unpacked. ```python from datasets import load_dataset rw = load_dataset("tiiuae/falcon-refinedweb") ``` RefinedWeb is the main dataset we have used for training the [Falcon LLM](https://falconllm.tii.ae) models: * It was used in conjunction with a curated corpora to train Falcon-[7B](https://huggingface.co/tiiuae/falcon-7b)/[40B](https://huggingface.co/tiiuae/falcon-40b), two state-of-the-art open-source models. * It was also used to train Falcon-RW-[1B](https://huggingface.co/tiiuae/falcon-rw-1b)/[7B](https://huggingface.co/tiiuae/falcon-rw-7b), two models trained on 350 billion tokens of RefinedWeb alone to demonstrate its quality compared to curated corpora. # Dataset card for Falcon RefinedWeb ## Dataset Description * **Homepage:** [falconllm.tii.ae](falconllm.tii.ae) * **Paper:** [https://arxiv.org/abs/2306.01116](https://arxiv.org/abs/2306.01116) * **Point of Contact:** [falconllm@tii.ae](mailto:falconllm@tii.ae) ### Dataset Summary Falcon RefinedWeb was created to serve as an English large-scale dataset for the pretraining of large language models. It may be used on its own, or augmented with curated sources (e.g., Wikipedia, StackOverflow). It was built on top of CommonCrawl, leveraging stringent filtering and extensive deduplication. ### Supported Tasks and Leaderboards RefinedWeb is intended to be primarly used as a pretraining dataset for large language models. Practitioners may leverage it for upstream evaluation with a validation loss, but we do not provide any canonical split. ### Languages RefinedWeb primarly contains English. ## Dataset Structure ### Data Instances Each data instance corresponds to an individual web page which has been crawled, processed, and deduplicated against all other instances. This public extract of RefinedWeb contains about 1B instances (968M individual web pages), for a total of 2.8TB of clean text data. ### Data Fields * `content`: the processed and cleaned text contained in the page; * `url`: the url of the webpage crawled to produce the sample; * `timestamp`: timestamp of when the webpage was crawled by CommonCrawl; * `dump`: the CommonCrawl dump the sample is a part of; * `segment`: the CommonCrawl segment the sample is a part of; * `image_urls`: a list of elements in the type [`image_url`, `image_alt_text`] for all the images found in the content of the sample. ### Data Splits We do not provide any canonical splits for RefinedWeb. ## Dataset Creation ### Curation Rationale Falcon RefinedWeb is built on-top of [CommonCrawl](https://commoncrawl.org), using the Macrodata Refinement Pipeline, which combines content extraction, filtering heuristics, and deduplication. In designing RefinedWeb, we abided to the following philosophy: * (1) **Scale first.** We intend MDR to produce datasets to be used to train 40-200B parameters models, thus requiring trillions of tokens [(Hoffmann et al., 2022)](https://arxiv.org/abs/2203.15556). For English-only RefinedWeb, we target a size of 3-6 trillion tokens. Specifically, we eschew any labour intensive human curation process, and focus on CommonCrawl instead of disparate single-domain sources. * (2) **Strict deduplication.** Inspired by the work of [Lee et al., 2021](https://arxiv.org/abs/2107.06499), which demonstrated the value of deduplication for large language models, we implement a rigorous deduplication pipeline. We combine both exact and fuzzy deduplication, and use strict settings leading to removal rates far higher than others datasets have reported. * (3) **Neutral filtering.** To avoid introducing further undesirable biases into the model, we avoid using ML-based filtering outside of language identification ([Dodge et al., 2021](https://arxiv.org/abs/2104.08758); [Welbl et al., 2021](https://arxiv.org/abs/2109.07445)) . We stick to simple rules and heuristics, and use only URL filtering for adult content. During its development, we iterated on RefinedWeb by measuring the zero-shot performance of models trained on development version of the dataset. Our main goal was to maximize the performance obtained, bridging the gap between curated and web data. We also manually audited samples to identify potential filtering improvements. ### Source Data RefinedWeb is built from [CommonCrawl](https://commoncrawl.org) dumps. These dumps are constructed from crawling publicly available web pages. ### Data Collection and Preprocessing We applied extensive preprocessing and cleaning of the data, using our Macrodata Refinement Pipeline. We first filter URLs to remove adult content using a blocklist and a score system, we then use `trafilatura` to extract content from pages, and perform language identification with the `fastText` classifier from CCNet ([Wenzek et al., 2019](https://arxiv.org/abs/1911.00359)). After this first preprocessing stage, we filter data using heuristics from MassiveWeb ([Rae et al., 2021](https://arxiv.org/abs/2112.11446)), and our own line-wise corrections. Finally, we run extensive deduplication, removing URLs revisited across dumps and performing subsequently fuzzy and exact substring deduplication. ### Annotations We provide automatically collected annotations for the source `url`, `timestamp` of the crawl, original CommonCrawl `dump` and `segment` in which the document was found, and `image_urls` contained in the page. ### Personal and Sensitive Information As RefinedWeb is built upon publicly available web pages, it may contain sensitive information such as emails, phone numbers, or IP addresses. We believe that deduplication may have helped reduced the prevalence of PII in the dataset, but practitioners working with RefinedWeb should take care. ## Considerations for Using the Data ### Social Impact of Dataset With the open-source release of Falcon RefinedWeb, we aim to increase access to high-quality web data, which has typically been held private by model developers. We believe this release will in turn improve the accessibility and the spread of performant large language models. ### Discussion of Biases As toxic or biased data is prevalent on the internet, it is likely our dataset contains such content. Notably, using the Perspective API, we estimated the prevalence of toxic content in the dataset to be similar to The Pile. ### Other Known Limitations Despite our best efforts to filter content that does not qualify as natural language, and to deduplicate documents, our pipeline may let through documents that may be considered as errors or redundant. ## Additional Information ### Licensing Information This public extract is made available under an [ODC-By 1.0](https://opendatacommons.org/licenses/by/1-0/) license; users should also abide to the [CommonCrawl ToU](https://commoncrawl.org/terms-of-use/). ### Citation Information ``` @article{refinedweb, title={The {R}efined{W}eb dataset for {F}alcon {LLM}: outperforming curated corpora with web data, and web data only}, author={Guilherme Penedo and Quentin Malartic and Daniel Hesslow and Ruxandra Cojocaru and Alessandro Cappelli and Hamza Alobeidli and Baptiste Pannier and Ebtesam Almazrouei and Julien Launay}, journal={arXiv preprint arXiv:2306.01116}, eprint={2306.01116}, eprinttype = {arXiv}, url={https://arxiv.org/abs/2306.01116}, year={2023} } ``` ### Opt-out request RefinedWeb is based on [CommonCrawl](https://commoncrawl.org/). Their crawler honors opt-out requests in the `robots.txt`, see the [CC FAQ](https://commoncrawl.org/big-picture/frequently-asked-questions/) for details. To remove a document from RefinedWeb, please message falconllm@tii.ae. ### Contact falconllm@tii.ae

dataset_info: features: - name: content dtype: 字符串 - name: url dtype: 字符串 - name: timestamp dtype: timestamp[s](秒级时间戳) - name: dump dtype: 字符串 - name: segment dtype: 字符串 - name: image_urls sequence: sequence: 字符串 splits: - name: train num_bytes: 2766953721769 num_examples: 968000015 download_size: 466888198663 dataset_size: 2766953721769 license: odc-by task_categories: - 文本生成 language: - 英语 pretty_name: Falcon RefinedWeb size_categories: - 100B < n < 1T # 📀 Falcon RefinedWeb **Falcon RefinedWeb是由[TII](https://www.tii.ae)开发的超大规模英文网页数据集,采用ODC-By 1.0许可证发布。** 更多细节请参阅📓 [arXiv上的相关论文](https://arxiv.org/abs/2306.01116)。 RefinedWeb基于CommonCrawl经过严格筛选与大规模去重构建而成;我们发现,仅使用网页数据训练、基于RefinedWeb的模型,其性能可与基于精选数据集训练的模型持平甚至更优。 同时,RefinedWeb具备“多模态友好”特性:在经过处理的样本中,包含了图片的链接与替代文本。 该公开子集的Token数量约为5000亿至6500亿(具体取决于所使用的分词器),也可结合自选的精选语料库进行扩展。此公开子集下载大小约为500GB,解压后需占用2.8TB本地存储空间。 python from datasets import load_dataset rw = load_dataset("tiiuae/falcon-refinedweb") RefinedWeb是我们训练[Falcon LLM(猎鹰大语言模型)](https://falconllm.tii.ae)所采用的核心数据集: * 它与精选语料库结合使用,用于训练Falcon-7B与Falcon-40B两款当前顶尖的开源大语言模型。 * 此外,它还被用于训练Falcon-RW-1B与Falcon-RW-7B,这两款模型仅使用3500亿Token的RefinedWeb数据训练而成,用以证明其相较于精选语料库的优质性。 # Falcon RefinedWeb 数据集卡片 ## 数据集说明 * **官方主页:** [falconllm.tii.ae](https://falconllm.tii.ae) * **相关论文:** [https://arxiv.org/abs/2306.01116](https://arxiv.org/abs/2306.01116) * **联系方式:** [falconllm@tii.ae](mailto:falconllm@tii.ae) ### 数据集概述 Falcon RefinedWeb旨在为大语言模型的预训练提供大规模英文数据集,既可以单独使用,也可结合维基百科、Stack Overflow等精选数据源进行扩展。 该数据集基于CommonCrawl构建,通过严格筛选与大规模去重处理生成。 ### 支持任务与排行榜 RefinedWeb主要作为大语言模型的预训练数据集使用。研究人员可利用其进行上游验证损失评估,但本数据集未提供标准划分方式。 ### 语言覆盖 本数据集主要包含英文文本。 ## 数据集结构 ### 数据实例 每个数据实例对应一个经过爬取、处理并与所有其他实例完成去重的独立网页。 此公开子集包含约10亿个数据实例(9.68亿个独立网页),总净文本数据量达2.8TB。 ### 数据字段 * `content`:网页中经过处理与清洗后的文本内容; * `url`:生成该样本所爬取的网页链接; * `timestamp`:CommonCrawl爬取该网页的时间戳; * `dump`:该样本所属的CommonCrawl数据批次; * `segment`:该样本所属的CommonCrawl数据分段; * `image_urls`:样本内容中所有图片的元素列表,每个元素为`[图片链接, 图片替代文本]`格式。 ### 数据划分 本数据集未提供标准划分方式。 ## 数据集构建 ### 构建理念 Falcon RefinedWeb基于[CommonCrawl](https://commoncrawl.org)构建,采用Macrodata Refinement Pipeline(宏数据精炼流水线)完成内容提取、筛选启发式规则与去重处理。 在设计RefinedWeb时,我们遵循以下核心原则: * (1) **优先保障规模**。我们期望MDR流水线生成的数据集可用于训练400亿至2000亿参数的大语言模型,因此需要万亿级别的Token数据[(Hoffmann等人,2022)](https://arxiv.org/abs/2203.15556)。针对纯英文的RefinedWeb,我们目标是达到3万亿至6万亿Token的规模。具体而言,我们摒弃了劳动密集型的人工精选流程,转而聚焦于CommonCrawl数据集,而非分散的单领域数据源。 * (2) **严格去重**。受[Lee等人,2021](https://arxiv.org/abs/2107.06499)研究的启发(该研究证实了去重对大语言模型的重要价值),我们搭建了一套严格的去重流水线。我们结合精确去重与模糊去重两种方式,并采用严苛的参数设置,使得数据剔除率远高于其他公开数据集。 * (3) **中性筛选**。为避免向模型引入额外的不良偏见,我们仅在语言识别环节使用基于机器学习的筛选方法([Dodge等人,2021](https://arxiv.org/abs/2104.08758); [Welbl等人,2021](https://arxiv.org/abs/2109.07445))。我们仅采用简单的规则与启发式方法,仅通过URL过滤处理成人内容。 在开发过程中,我们通过评估基于数据集开发版本训练的模型的零样本性能,对RefinedWeb进行迭代优化。我们的核心目标是最大化模型性能,缩小基于精选数据集与纯网页数据训练的模型之间的性能差距。同时,我们还对样本进行人工审核,以识别可优化的筛选规则。 ### 源数据 RefinedWeb的源数据来自[CommonCrawl](https://commoncrawl.org)数据批次,这些批次通过爬取公开网页生成。 ### 数据收集与预处理 我们通过Macrodata Refinement流水线对数据进行了全方位的预处理与清洗。 我们首先通过黑名单与评分系统过滤URL,剔除成人内容;随后使用`trafilatura`工具从网页中提取文本,并借助CCNet的`fastText`分类器完成语言识别([Wenzek等人,2019](https://arxiv.org/abs/1911.00359))。在首轮预处理完成后,我们采用MassiveWeb的启发式规则([Rae等人,2021](https://arxiv.org/abs/2112.11446))与自定义的逐行修正规则进一步筛选数据。 最后,我们执行大规模去重操作:首先移除跨批次重复出现的URL,随后进行模糊与精确子串去重。 ### 标注信息 我们为样本提供自动采集的标注信息,包括源URL、爬取时间戳、文档所属的CommonCrawl数据批次与分段,以及页面中包含的`image_urls`。 ### 个人与敏感信息 由于RefinedWeb基于公开网页构建,数据中可能包含电子邮件、电话号码或IP地址等敏感信息。我们认为去重操作可能降低了数据集里个人可识别信息(PII)的占比,但使用该数据集的研究人员仍需谨慎处理。 ## 数据使用注意事项 ### 数据集的社会影响 通过开源发布Falcon RefinedWeb,我们旨在提升高质量网页数据的可获取性——这类数据此前通常仅为模型开发者所私有。我们相信此次发布将进一步提升高性能大语言模型的可及性并推动其普及。 ### 偏见相关说明 由于互联网上充斥着有毒或带有偏见的内容,本数据集大概率也包含此类内容。值得注意的是,我们通过Perspective API估算,本数据集中有毒内容的占比与The Pile数据集相当。 ### 其他已知局限性 尽管我们已尽力过滤非自然语言内容并完成文档去重,但我们的流水线仍可能保留部分被视为错误或冗余的文档。 ## 附加信息 ### 许可证信息 此公开子集采用[ODC-By 1.0(开放式数据Commons署名许可证1.0)](https://opendatacommons.org/licenses/by/1-0/)许可证发布;使用者同时需遵守[CommonCrawl服务条款](https://commoncrawl.org/terms-of-use/)。 ### 引用信息 @article{refinedweb, title={The {R}efined{W}eb dataset for {F}alcon {LLM}: outperforming curated corpora with web data, and web data only}, author={Guilherme Penedo and Quentin Malartic and Daniel Hesslow and Ruxandra Cojocaru and Alessandro Cappelli and Hamza Alobeidli and Baptiste Pannier and Ebtesam Almazrouei and Julien Launay}, journal={arXiv preprint arXiv:2306.01116}, eprint={2306.01116}, eprinttype = {arXiv}, url={https://arxiv.org/abs/2306.01116}, year={2023} } ### 下架申请 RefinedWeb基于[CommonCrawl](https://commoncrawl.org/)构建,其爬虫会遵守`robots.txt`中的下架请求,详情请参阅[CC常见问题解答](https://commoncrawl.org/big-picture/frequently-asked-questions/)。 若需从RefinedWeb中移除某文档,请发送邮件至falconllm@tii.ae。 ### 联系方式 falconllm@tii.ae
提供机构:
tiiuae
原始信息汇总

数据集概述

数据集名称

Falcon RefinedWeb

数据集描述

Falcon RefinedWeb 是一个大规模的英语网络数据集,用于预训练大型语言模型。该数据集基于 CommonCrawl,通过严格的过滤和大规模的去重处理构建而成。

数据集特征

  • content: 字符串类型,网页中处理和清洗后的文本内容。
  • url: 字符串类型,爬取网页的URL。
  • timestamp: 时间戳类型,网页被 CommonCrawl 爬取的时间。
  • dump: 字符串类型,样本所属的 CommonCrawl 转储文件。
  • segment: 字符串类型,样本所属的 CommonCrawl 段。
  • image_urls: 序列类型,包含图片URL和图片替代文本的列表。

数据集大小

  • 训练集大小: 2766953721769 字节,968000015 个样本。
  • 下载大小: 466888198663 字节。
  • 数据集总大小: 2766953721769 字节。

许可信息

数据集遵循 ODC-By 1.0 许可。

语言

数据集主要包含英语。

数据集结构

  • 数据实例: 每个实例对应一个经过爬取、处理和去重后的网页。
  • 数据字段: 如上所述的特征。
  • 数据分割: 数据集未提供标准分割。

数据集创建

  • 来源数据: 基于 CommonCrawl 转储文件。
  • 数据收集和预处理: 应用了广泛的预处理和清洗,包括URL过滤、内容提取、语言识别和去重。
  • 注释: 提供自动收集的注释,包括URL、爬取时间戳、原始转储和段信息,以及网页中的图片URL。

使用数据集的注意事项

  • 社会影响: 旨在提高高质量网络数据的可用性,促进高性能大型语言模型的普及。
  • 偏见讨论: 数据集可能包含网络上的有毒或偏见内容。
  • 其他已知限制: 尽管进行了过滤和去重,仍可能存在错误或重复的文档。

附加信息

  • 许可信息: 数据集遵循 ODC-By 1.0 许可,用户应遵守 CommonCrawl 的使用条款。
  • 引用信息: 提供了详细的引用信息。
  • 退出请求: 数据集基于 CommonCrawl,支持通过 robots.txt 进行退出请求。
搜集汇总
数据集介绍
main_image_url
构建方式
Falcon RefinedWeb数据集通过严格的过滤和大规模的去重处理构建而成,基于CommonCrawl数据集。其构建过程采用了Macrodata Refinement Pipeline,结合了内容提取、过滤启发式方法和去重技术。数据集的构建遵循‘规模优先’的原则,旨在生成适用于训练40-200亿参数模型的数据集,目标规模为3-6万亿个标记。此外,数据集实施了严格的去重策略,结合精确和模糊去重方法,确保数据的高质量。
特点
Falcon RefinedWeb数据集的主要特点包括其大规模的英语文本数据,适用于预训练大型语言模型。数据集具有‘多模态友好’的特性,包含处理样本中的图像链接和替代文本。此外,数据集通过严格的去重和过滤,减少了重复和不良内容,提高了数据的整体质量。数据集的公开提取版本约为500GB,解压后需要2.8TB的本地存储空间。
使用方法
Falcon RefinedWeb数据集主要用于大型语言模型的预训练,用户可以通过HuggingFace的datasets库加载该数据集。数据集不提供标准的分割,用户可以根据需要自行分割数据。数据集的每个实例对应一个经过爬取、处理和去重的网页,包含处理后的文本内容、网页URL、爬取时间戳、CommonCrawl的dump和segment信息,以及页面中的图像URL列表。
背景与挑战
背景概述
Falcon RefinedWeb是由阿联酋技术创新研究所(TII)创建并发布的一个大规模英语网络数据集,旨在为大规模语言模型的预训练提供高质量的数据资源。该数据集基于CommonCrawl,通过严格的过滤和大规模的去重处理,确保了数据的质量和多样性。RefinedWeb的构建旨在弥补传统人工精选数据集与纯网络数据之间的差距,特别是在训练参数规模为40-200亿的大型模型时,其目标数据量为3-6万亿个token。该数据集的发布不仅推动了开源语言模型的发展,还为研究人员提供了更多的数据选择,以提升模型的性能。
当前挑战
RefinedWeb的构建过程中面临了多个挑战。首先,如何在CommonCrawl的海量数据中进行有效的过滤和去重,以确保数据的质量和多样性,是一个技术难题。其次,尽管采用了严格的去重和过滤策略,数据集中仍可能包含敏感信息或不适当的内容,这需要进一步的处理和审查。此外,数据集的规模庞大,处理和存储需求极高,对计算资源和存储技术提出了严峻的挑战。最后,如何平衡数据集的多样性与质量,以确保其在不同任务中的广泛适用性,也是研究人员需要解决的问题。
常用场景
经典使用场景
Falcon RefinedWeb数据集主要用于大规模语言模型的预训练。其经典使用场景包括构建和训练具有数十亿参数的先进语言模型,如Falcon-7B和Falcon-40B。通过结合RefinedWeb与精选语料库,研究者能够有效提升模型的性能,尤其是在零样本和少样本学习任务中表现出色。
衍生相关工作
基于Falcon RefinedWeb,研究者开发了多个先进的开源语言模型,如Falcon-7B和Falcon-40B,这些模型在多个基准测试中表现优异。此外,该数据集还启发了对大规模数据去重和过滤技术的进一步研究,推动了数据处理和模型训练效率的提升。
数据集最近研究
最新研究方向
近年来,大规模语言模型的预训练数据集研究逐渐转向利用高质量的网络数据,以提升模型的性能和泛化能力。Falcon RefinedWeb 数据集作为这一趋势的代表,通过严格的过滤和大规模去重处理,展示了仅依赖网络数据即可达到甚至超越传统精选数据集的性能。该数据集的多模态友好特性,特别是包含图像链接和替代文本,进一步拓展了其在多模态学习中的应用前景。此外,RefinedWeb 的开放获取策略,旨在推动高性能大语言模型的普及,对学术界和工业界均具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作