five

tiiuae/falcon-refinedweb|网络数据数据集|文本挖掘数据集

收藏
hugging_face2023-06-20 更新2024-03-04 收录
网络数据
文本挖掘
下载链接:
https://hf-mirror.com/datasets/tiiuae/falcon-refinedweb
下载链接
链接失效反馈
资源简介:
Falcon RefinedWeb是一个大规模的英文网络数据集,由TII构建,并根据ODC-By 1.0许可证发布。该数据集通过严格过滤和大规模去重处理CommonCrawl数据,旨在作为大型语言模型预训练的高质量数据源。它支持多模态内容,包含图像链接和替代文本,并且已被用于训练Falcon LLM模型,展示了其与精选数据集相比的优越性能。
提供机构:
tiiuae
原始信息汇总

数据集概述

数据集名称

Falcon RefinedWeb

数据集描述

Falcon RefinedWeb 是一个大规模的英语网络数据集,用于预训练大型语言模型。该数据集基于 CommonCrawl,通过严格的过滤和大规模的去重处理构建而成。

数据集特征

  • content: 字符串类型,网页中处理和清洗后的文本内容。
  • url: 字符串类型,爬取网页的URL。
  • timestamp: 时间戳类型,网页被 CommonCrawl 爬取的时间。
  • dump: 字符串类型,样本所属的 CommonCrawl 转储文件。
  • segment: 字符串类型,样本所属的 CommonCrawl 段。
  • image_urls: 序列类型,包含图片URL和图片替代文本的列表。

数据集大小

  • 训练集大小: 2766953721769 字节,968000015 个样本。
  • 下载大小: 466888198663 字节。
  • 数据集总大小: 2766953721769 字节。

许可信息

数据集遵循 ODC-By 1.0 许可。

语言

数据集主要包含英语。

数据集结构

  • 数据实例: 每个实例对应一个经过爬取、处理和去重后的网页。
  • 数据字段: 如上所述的特征。
  • 数据分割: 数据集未提供标准分割。

数据集创建

  • 来源数据: 基于 CommonCrawl 转储文件。
  • 数据收集和预处理: 应用了广泛的预处理和清洗,包括URL过滤、内容提取、语言识别和去重。
  • 注释: 提供自动收集的注释,包括URL、爬取时间戳、原始转储和段信息,以及网页中的图片URL。

使用数据集的注意事项

  • 社会影响: 旨在提高高质量网络数据的可用性,促进高性能大型语言模型的普及。
  • 偏见讨论: 数据集可能包含网络上的有毒或偏见内容。
  • 其他已知限制: 尽管进行了过滤和去重,仍可能存在错误或重复的文档。

附加信息

  • 许可信息: 数据集遵循 ODC-By 1.0 许可,用户应遵守 CommonCrawl 的使用条款。
  • 引用信息: 提供了详细的引用信息。
  • 退出请求: 数据集基于 CommonCrawl,支持通过 robots.txt 进行退出请求。
AI搜集汇总
数据集介绍
main_image_url
构建方式
Falcon RefinedWeb数据集通过严格的过滤和大规模的去重处理构建而成,基于CommonCrawl数据集。其构建过程采用了Macrodata Refinement Pipeline,结合了内容提取、过滤启发式方法和去重技术。数据集的构建遵循‘规模优先’的原则,旨在生成适用于训练40-200亿参数模型的数据集,目标规模为3-6万亿个标记。此外,数据集实施了严格的去重策略,结合精确和模糊去重方法,确保数据的高质量。
特点
Falcon RefinedWeb数据集的主要特点包括其大规模的英语文本数据,适用于预训练大型语言模型。数据集具有‘多模态友好’的特性,包含处理样本中的图像链接和替代文本。此外,数据集通过严格的去重和过滤,减少了重复和不良内容,提高了数据的整体质量。数据集的公开提取版本约为500GB,解压后需要2.8TB的本地存储空间。
使用方法
Falcon RefinedWeb数据集主要用于大型语言模型的预训练,用户可以通过HuggingFace的datasets库加载该数据集。数据集不提供标准的分割,用户可以根据需要自行分割数据。数据集的每个实例对应一个经过爬取、处理和去重的网页,包含处理后的文本内容、网页URL、爬取时间戳、CommonCrawl的dump和segment信息,以及页面中的图像URL列表。
背景与挑战
背景概述
Falcon RefinedWeb是由阿联酋技术创新研究所(TII)创建并发布的一个大规模英语网络数据集,旨在为大规模语言模型的预训练提供高质量的数据资源。该数据集基于CommonCrawl,通过严格的过滤和大规模的去重处理,确保了数据的质量和多样性。RefinedWeb的构建旨在弥补传统人工精选数据集与纯网络数据之间的差距,特别是在训练参数规模为40-200亿的大型模型时,其目标数据量为3-6万亿个token。该数据集的发布不仅推动了开源语言模型的发展,还为研究人员提供了更多的数据选择,以提升模型的性能。
当前挑战
RefinedWeb的构建过程中面临了多个挑战。首先,如何在CommonCrawl的海量数据中进行有效的过滤和去重,以确保数据的质量和多样性,是一个技术难题。其次,尽管采用了严格的去重和过滤策略,数据集中仍可能包含敏感信息或不适当的内容,这需要进一步的处理和审查。此外,数据集的规模庞大,处理和存储需求极高,对计算资源和存储技术提出了严峻的挑战。最后,如何平衡数据集的多样性与质量,以确保其在不同任务中的广泛适用性,也是研究人员需要解决的问题。
常用场景
经典使用场景
Falcon RefinedWeb数据集主要用于大规模语言模型的预训练。其经典使用场景包括构建和训练具有数十亿参数的先进语言模型,如Falcon-7B和Falcon-40B。通过结合RefinedWeb与精选语料库,研究者能够有效提升模型的性能,尤其是在零样本和少样本学习任务中表现出色。
衍生相关工作
基于Falcon RefinedWeb,研究者开发了多个先进的开源语言模型,如Falcon-7B和Falcon-40B,这些模型在多个基准测试中表现优异。此外,该数据集还启发了对大规模数据去重和过滤技术的进一步研究,推动了数据处理和模型训练效率的提升。
数据集最近研究
最新研究方向
近年来,大规模语言模型的预训练数据集研究逐渐转向利用高质量的网络数据,以提升模型的性能和泛化能力。Falcon RefinedWeb 数据集作为这一趋势的代表,通过严格的过滤和大规模去重处理,展示了仅依赖网络数据即可达到甚至超越传统精选数据集的性能。该数据集的多模态友好特性,特别是包含图像链接和替代文本,进一步拓展了其在多模态学习中的应用前景。此外,RefinedWeb 的开放获取策略,旨在推动高性能大语言模型的普及,对学术界和工业界均具有重要意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录