fineweb-legal-pilot
收藏Hugging Face2026-01-04 更新2026-01-05 收录
下载链接:
https://huggingface.co/datasets/NoeFlandre/fineweb-legal-pilot
下载链接
链接失效反馈官方服务:
资源简介:
FineWeb-Legal-Pilot是一个试点数据集,包含52k个高质量的法律文档,这些文档是从FineWeb的10亿token样本中筛选出来的。数据集旨在增强FineWeb在法律AI领域适应性方面的实用性,通过创建一个法律质量分类器来筛选和保留最具法律意义的网页内容(如判例法、法规、文件)。这个试点发布是在将流程扩展到完整的44TB FineWeb语料库之前的验证步骤。数据集包括默认配置、高质量子集和最高法院意见等黄金标准配置。数据集还附带了用于筛选的法律分类器模型、训练代码和注释管道。
创建时间:
2026-01-03
原始信息汇总
FineWeb-Legal-Pilot 数据集概述
数据集基本信息
- 数据集名称: FineWeb-Legal-Pilot
- 发布者: Noé Flandre
- 发布日期: 2026年
- 语言: 英语
- 许可证: MIT License,同时遵循父数据集FineWeb的Open Data Commons Attribution License (ODC-By) v1.0
- 任务类别: 文本分类、文本生成
- 标签: 法律、fineweb、法律、自然语言处理
- 数据规模: 10K < n < 100K(文档数量)
数据集内容与规模
- 核心内容: 从FineWeb的100亿token样本中筛选出的高质量法律领域文档。
- 总词汇量: 约6680万词。
- 总文档数: 52,132份(评分≥3.0)。
- 数据来源: 基于Common Crawl的FineWeb数据集。
数据集配置
数据集提供三种配置,对应不同的质量筛选阈值:
| 配置名称 | 最低评分 | 训练集文档数 | 测试集文档数 | 总文档数 | 总词数 | 平均评分 |
|---|---|---|---|---|---|---|
default |
≥ 3.0 | 46,918 | 5,214 | 52,132 | 66.9M | 4.21 |
high_quality |
≥ 4.0 | 29,101 | 3,234 | 32,335 | 46.9M | 4.60 |
supreme |
≥ 4.8 | 14,971 | 1,664 | 16,635 | 29.4M | 4.98 |
default: 所有被识别的法律文档,覆盖范围最广。high_quality: 强法律内容,如判例法、法规、合同。supreme: 黄金标准,包含最高法院意见、主要立法等。
数据文件
每个配置包含训练集和测试集,格式为Parquet文件:
default/train.parquetdefault/test.parquethigh_quality/train.parquethigh_quality/test.parquetsupreme/train.parquetsupreme/test.parquet
数据筛选与构建方法
标注过程
- 使用Mistral-Medium模型对6,500个FineWeb样本进行评分,评分标准为0-5分,衡量其法律价值。
- 评分标准:
- 0分: 噪声/垃圾内容(导航、广告、乱码)。
- 1分: 通用/营销内容(律师事务所广告、普通新闻)。
- 2分: 基础信息(维基百科摘要、Reddit问题)。
- 3分: 有用内容(详细的法律新闻、政府指南)。
- 4分: 高价值内容(案例文本、法规、合同)。
- 5分: 黄金标准(最高法院意见、法律期刊)。
分类器训练
- 使用上述标注数据,在Gemma-Embedding-300m模型上使用LoRA适配器进行微调。
- 模型性能:二元F1@3为97.99%,验证准确率为88.8%。
- 训练耗时:在单张RTX 3090上约2小时。
筛选结果
- 输入:通过启发式方法从原始FineWeb 10BT子集中提取的143,379份文档。
- 输出:52,132份文档(评分≥3.0)。
- 主要来源域名包括
openjurist.org、findacase.com和federalregister.gov。
数据集用途与定位
- 性质: 试点发布版本,源自100亿token的样本。
- 主要用途:
- 领域适应(微调)。
- 评估基准。
- 训练检索(RAG)嵌入。
- 局限性: 当前规模尚不足以进行完整的预训练。
社会影响与注意事项
- 社会影响: 旨在通过提供高质量的法律训练数据,促进法律AI研究的民主化,打破对Westlaw、LexisNexis等专有数据库的依赖。
- 偏见: 数据集反映了网络和Common Crawl的偏见。尽管经过严格的法律内容筛选,仍可能包含具有其时代特征的、过时或冒犯性术语的历史法律文件。
相关资源
- 数据集(标注): https://huggingface.co/datasets/NoeFlandre/fineweb-legal-annotations
- 分类器模型: https://huggingface.co/NoeFlandre/fineweb-legal-classifier
- 代码仓库: https://github.com/NoeFlandre/fineweb-legal
- 技术报告: https://github.com/NoeFlandre/fineweb-legal/blob/main/docs/TECHNICAL_REPORT.md
引用格式
bibtex @misc{fineweb-legal-2026, author = { Noé Flandre }, title = { FineWeb-Legal-Pilot: High-Quality Legal Text from the Web }, year = 2026, url = { https://github.com/NoeFlandre/fineweb-legal }, publisher = { Hugging Face } }
搜集汇总
数据集介绍

构建方式
在构建FineWeb-Legal-Pilot数据集时,研究团队借鉴了FineWeb-Edu的方法论,采用合成数据标注策略。首先,利用Mistral-Medium模型对FineWeb十亿令牌样本中的约6500个网页进行法律价值评分,评分范围从0到5,涵盖从噪声垃圾信息到最高法院意见等不同层级。随后,基于这些标注数据,对Gemma-Embedding-300m模型进行LoRA适配器微调,训练出一个法律质量分类器,其二元F1分数达到97.99%。最终,该分类器对经过启发式预筛选的143,379份文档进行评分过滤,保留了评分不低于3.0的52,132份高质量法律文档,形成了数据集的初步版本。
特点
FineWeb-Legal-Pilot数据集的核心特征在于其多层次的质量配置与严格的法律内容筛选。数据集提供了三种不同阈值的配置:default配置包含所有评分≥3.0的文档,涵盖广泛的法律内容;high_quality配置将阈值提升至≥4.0,聚焦于判例法、成文法等高价值文本;supreme配置则设定为≥4.8,堪称黄金标准,专门收录最高法院意见和主要立法文献。这种分层设计使得研究人员能够根据具体任务需求,灵活选择不同纯度的语料。数据集总计包含约6690万词,源自openjurist.org、findacase.com等权威法律域名,确保了内容的专业性与可靠性。
使用方法
使用FineWeb-Legal-Pilot数据集时,用户可通过Hugging Face的datasets库便捷加载。根据研究目标的不同,可以选择加载完整的default配置以获取最广泛的法律文本覆盖,或指定high_quality、supreme配置来获取经过更严格筛选的高纯度语料。该数据集特别适用于法律领域的自然语言处理任务,例如对通用大语言模型进行法律领域适应微调,构建法律文本检索增强生成系统的嵌入模型,或作为评估法律AI模型性能的基准数据。鉴于其试点性质,数据集目前规模尚不足以支持完整的预训练,但为法律AI的开源研究提供了高质量的起步资源。
背景与挑战
背景概述
在人工智能与法律交叉领域,高质量法律文本数据的稀缺性长期制约着法律大语言模型的开放研究。FineWeb-Legal-Pilot数据集应运而生,由研究者Noé Flandre于2026年创建,旨在从庞大的FineWeb语料库中筛选出高质量法律文档,以促进法律领域的AI适应研究。该数据集从FineWeb的100亿令牌样本中,通过构建基于Mistral-Medium标注的法律质量分类器,精炼出约5.2万份法律文件,涵盖判例法、法规、合同等核心内容。其发布标志着在打破Westlaw、LexisNexis等专有数据库垄断方面迈出关键一步,为开源法律AI模型的训练与评估提供了宝贵资源。
当前挑战
该数据集致力于解决法律自然语言处理中高质量训练数据获取困难的挑战,具体包括法律文本的专业性、结构复杂性以及领域术语的精确理解。在构建过程中,挑战主要体现为从海量网络文本中精准识别与提取高质量法律内容的难度,需克服通用网页噪声、低质量营销信息以及法律文本的时效性与地域性差异。此外,依赖大语言模型进行自动标注可能引入模型固有偏见,且从有限样本扩展至全量语料时,分类器的泛化能力与数据一致性仍需进一步验证。
常用场景
经典使用场景
在法律人工智能领域,FineWeb-Legal-Pilot数据集为领域自适应研究提供了关键资源。其经典使用场景集中于法律文本的精细分类与生成任务,例如通过微调大型语言模型,使其能够准确理解并生成判例法、法规条文等专业法律内容。数据集包含多个质量层级配置,允许研究者根据需求选择不同纯度的法律文本,从而优化模型在特定法律子领域的表现,如最高法院意见分析或合同条款生成。
实际应用
在实际应用中,该数据集支撑了智能法律助手、文档自动化审查和司法决策支持系统的开发。例如,基于其‘supreme’配置的黄金标准文本,可以训练检索增强生成模型,为律师或学者快速定位相关判例提供技术支持。同时,数据集中的高质量法律内容可用于构建法律问答系统,提升公共法律服务的效率与准确性,尤其在处理法规查询、合同分析等日常法律事务中展现出实用价值。
衍生相关工作
该数据集衍生了一系列经典研究工作,包括基于Gemma-Embedding-300m模型训练的法律质量分类器,以及借鉴FineWeb-Edu方法的合成数据标注流程。这些工作为后续法律文本过滤技术设立了新范式,例如开发更高效的法律领域嵌入模型或构建细粒度的法律文本评估基准。相关成果已推动开源社区在法律AI工具链上的创新,如用于检索增强生成的法律嵌入库和领域自适应微调框架。
以上内容由遇见数据集搜集并总结生成



