five

Fineweb-LARD

收藏
Hugging Face2026-05-19 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/Yusser/Fineweb-LARD
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集是 FineWeb 和 FineWeb-2 的合并版本,并添加了基于 URL 解析的地理区域标注。数据集通过一个 URL 解析流程,为每条记录标注了 ISO 3166-1 alpha-2 区域标签(未解析为 'XX' 的记录已被剔除),从而形成了一个按语言-文字和地区进行 Hive 分区的视图。数据规模庞大,包含约 29.6 亿条已解析的记录,覆盖 525 种语言、243 个地区以及 30,012 个语言-文字与地区的组合。数据以 Parquet 文件格式存储,并按 `language_script`(如 eng_Latn, cmn_Hani)和 `region`(如 GB, CN)进行分区,便于按需高效加载特定子集。每条记录包含原始文档文本(`text`)、唯一标识符(`id`)、来源 URL(`url`)、语言信息(`language`, `language_script`)、区域标签(`region`)、区域置信度(`region_confidence`)以及来源数据集标识(`source_dataset`)等字段。区域标注主要基于 URL 查找表,标注精度尚未评估,使用者可通过 `region_confidence` 字段进行过滤。数据集适用于多语言文本生成、文本分类以及基于地理或语言分布的大规模语言模型预训练等任务。

This dataset is a merged version of FineWeb and FineWeb-2, with added geographic region annotations based on URL parsing. Through a URL parsing process, each record is annotated with an ISO 3166-1 alpha-2 region label (records not resolved to XX have been removed), forming a Hive-partitioned view by language-script and region. The dataset is large-scale, containing approximately 2.96 billion parsed records, covering 525 languages, 243 regions, and 30,012 language-script and region combinations. Data is stored in Parquet file format and partitioned by language_script (e.g., eng_Latn, cmn_Hani) and region (e.g., GB, CN), enabling efficient loading of specific subsets as needed. Each record includes fields such as original document text (text), unique identifier (id), source URL (url), language information (language, language_script), region label (region), region confidence (region_confidence), and source dataset identifier (source_dataset). Region annotations are primarily based on a URL lookup table, and annotation accuracy has not been evaluated; users can filter using the region_confidence field. The dataset is suitable for tasks such as multilingual text generation, text classification, and large-scale language model pre-training based on geographic or linguistic distributions.
创建时间:
2026-05-18
搜集汇总
数据集介绍
main_image_url
构建方式
FineWeb-LARD数据集是基于HuggingFaceFW/fineweb与HuggingFaceFW/fineweb-2两大语料库构建的衍生资源。其核心构建流程采用URL-only区域解析管线,为每条记录赋予ISO 3166-1 alpha-2区域标签。该解析过程利用包含133万条键值对的URL查找表(region_lookup_v3),通过查询、域名、路径等多层级策略实现地理溯源。值得注意的是,所有无法解析的记录(标记为XX)均被剔除,仅保留已成功标注区域的文本,最终形成包含约29.6亿条记录的高效语料集合。数据以Hive分区格式存储,按language_script与region双重维度组织,便于检索。
特点
该数据集最显著的特点在于其精细的地理与语言双重标注体系。每条记录不仅包含文本、URL、语言编码等基础字段,还额外携带region、locale(组合格式如eng_Latn-GB)、region_source及region_confidence等元信息。region_confidence字段采用分级制(high/medium/low/ccTLD/url_hint),为用户提供灵活的筛选依据。数据集覆盖525种语言与243个区域,总计超过3万个语言-区域组合(locale),是全球范围内规模最大的区域标注文本集合之一。此外,它完整保留了原始语料的来源信息,支持追溯至FineWeb或FineWeb-2的原始条目。
使用方法
用户可通过HuggingFace Datasets库灵活加载该数据集。推荐采用Hive分区路径定位数据,例如通过`data/language_script=eng_Latn/region=GB/*.parquet`加载特定语言与区域组合,或利用通配符`data/**/region=DE/*.parquet`跨语言检索某区域的文本。数据集预置了多种命名配置(如lang_eng_Latn、region_DE、fineweb2_only等),简化常见场景的加载流程。对于需要高可靠性的下游任务,建议使用`.filter()`方法基于region_confidence字段筛选(如保留high/medium/low层级),以排除仅依赖ccTLD的弱标注样本。同样支持通过source_dataset与id字段与原始语料库重新关联。
背景与挑战
背景概述
FineWeb-LARD数据集由Yusser Al-Ghussin于2026年创建,旨在为大规模多语言文本语料库引入地理来源标注,以弥补现有自然语言处理数据集缺乏区域上下文信息的缺陷。该数据集基于HuggingFaceFW团队发布的FineWeb(包含1000亿token样本)与FineWeb-2(涵盖50亿条记录,支持525种语言)构建,通过URL解析管线对每条记录标注ISO 3166-1 alpha-2区域代码,形成包含约29.6亿条解析后记录的结构化视图。其核心研究问题在于探究文本的地理来源对语言模型训练与评估的影响,尤其关注非英语与低资源语言区域的代表性。FineWeb-LARD的出现为区域偏见分析、多语言模型可迁移性研究以及地缘文化敏感的自然语言处理任务提供了大规模基准资源,在自然语言处理领域推动了对数据地理分布多样性的系统考量,并促进了更公平的语言模型开发。
当前挑战
该数据集面临的挑战涵盖领域问题与构建过程两个层面。在领域问题方面,它致力于缓解大规模通用语料库中地理覆盖不均导致的区域文化立场偏倚和语言建模偏差,例如当前FineWeb中英语及欧洲语言主导的格局可能削弱中东、非洲、南亚等地区文本的语义代表性,使模型在跨区域下游任务中出现系统性性能差异。在构建过程中,URL-only解析方法的精度尚未通过人工黄金标准验证,尤其非拉丁与阿拉伯语种URL的Punycode处理缺乏审计,可能导致区域标签错误,同时重复URL跨数据集(FineWeb与FineWeb-2)未被去重,以及简体/繁体中文因语言脚本分类不明确而难以区分,均对后续数据筛选与模型训练产生潜在噪声干扰。
常用场景
经典使用场景
在自然语言处理与地理计算交叉领域,Fineweb-LARD数据集为地域感知的语言模型训练提供了坚实基础。研究人员可基于其Hive分区结构,按语言-文字对(如eng_Latn)与ISO 3166-1 alpha-2区域标签(如GB、DE)精准筛选语料,构建面向特定地区或跨地域的预训练语料库。该数据集支持通过region_confidence列过滤高置信度样本,适用于多语言文本的地理溯源分析、区域语言变体建模以及地域偏见检测等经典任务,为理解语言与地理空间的耦合关系开辟了数据驱动的实证路径。
解决学术问题
该数据集有效回应了自然语言处理研究中长期存在的地理偏差与区域代表性不足问题。通过为超过29亿条网页文本标注ISO 3166-1区域标签,Fineweb-LARD使研究者得以量化不同地域在网络语料中的分布格局,从而修正现有语言模型因训练数据地域失衡而衍生的系统性偏见。其引入的区域置信度层级机制为评估标签可靠性提供了量化依据,支持对模型在不同地区文本上的表现差异进行归因分析,推动了公平性、鲁棒性与文化包容性等维度在语言技术评估中的规范发展。
衍生相关工作
基于Fineweb-LARD的层次化分区结构,学界已衍生出多项具有影响力的工作。典型路径包括利用region字段构建地域感知的检索增强生成(RAG)流水线,通过预过滤目标区域语料提升问答系统的地域相关性。部分研究聚焦于分析region_confidence与模型困惑度之间的关联,探索如何基于置信度阈值优化下游任务性能。此外,locale列的复合结构激发了跨语言-地域迁移学习研究,例如在数据稀疏地区利用相似语言家族的region语料进行零样本适应,这些工作共同扩展了该数据集作为地理语言学基准的影响力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作