french-corpus-llm-sample

Hugging Face2026-05-16 更新2026-05-17 收录

下载链接：

https://huggingface.co/datasets/finaleads/french-corpus-llm-sample

下载链接

链接失效反馈

官方服务：

资源简介：

French Corpus LLM — Sample 500 是一个从 French Premium Web Corpus v1.2.0 完整语料库中抽取的公开评估样本，包含 500 份分层法语文档。该数据集由 FINALEADS LLC 构建，旨在为法国受监管行业（金融、法规、经济）提供合规就绪的训练数据，帮助基础模型和监管科技团队满足欧盟《人工智能法案》第10条等数据治理要求。完整语料库规模约为200万文档/24亿词元。样本数据涵盖法规、判例、监管机构学说和源自欧盟的法律文本。每份文档包含清理后的纯文本（`text` 字段）以及34个结构化字段，详细记录了文档的标识信息（如唯一ID、来源、原始URL）、文本元数据、语言、长度、经过CPU和LLM评估的质量评分（如 `quality_score`, `llm_score_composite`）以及主题标签（如是否属于金融主题 `is_finance_topical` 及其子领域）。数据来源于8个权威公开渠道，包括法国官方公报（230份）、法国最高行政法院裁决（117份）、欧盟法规法语译本（56份）、法国国家集体谈判协议（55份）、法国最高法院裁决（29份）等。该数据集适用于多种自然语言处理任务，包括文本生成、文本检索、掩码填充和摘要，特别适合用于评估法语法规检索系统（RAG）、构建法语法律/金融领域大语言模型的监督微调数据、创建基于法国法规和判例的引用问答基准，以及进行跨机构监管学说比较分析和数据质量方法论研究。数据集在法国开放许可证2.0（`etalab-2.0`）下提供，兼容CC-BY-4.0，允许商业使用但需注明来源。

French Corpus LLM — Sample 500 is a publicly available evaluation sample extracted from the full French Premium Web Corpus v1.2.0, containing 500 stratified French documents. The dataset is constructed by FINALEADS LLC, aiming to provide compliance-ready training data for regulated industries in France (finance, regulation, economics), helping foundational models and regulatory technology teams meet data governance requirements such as Article 10 of the EU AI Act. The full corpus has a scale of approximately 2 million documents/2.4 billion tokens. The sample data covers regulations, case law, regulatory agency doctrines, and legal texts derived from the EU. Each document includes cleaned plain text (the `text` field) and 34 structured fields, detailing document identification information (e.g., unique ID, source, original URL), text metadata, language, length, quality scores evaluated by CPU and LLM (e.g., `quality_score`, `llm_score_composite`), and topic tags (e.g., whether it belongs to the financial topic `is_finance_topical` and its subfields). The data is sourced from 8 authoritative public channels, including the French Official Gazette (230 documents), French Council of State rulings (117 documents), French translations of EU regulations (56 documents), French national collective bargaining agreements (55 documents), French Supreme Court rulings (29 documents), etc. The dataset is suitable for various natural language processing tasks, including text generation, text retrieval, mask filling, and summarization, and is particularly suitable for evaluating French regulatory retrieval systems (RAG), building supervised fine-tuning data for French legal/financial domain large language models, creating citation-based question-answering benchmarks based on French regulations and case law, and conducting cross-agency regulatory doctrine comparative analysis and data quality methodology research. The dataset is provided under the French Open License 2.0 (`etalab-2.0`), compatible with CC-BY-4.0, allowing commercial use with attribution required.

创建时间：

2026-05-15

原始信息汇总

数据集概述：French Corpus LLM — Sample 500 (v1.3.0)

基本信息

数据集名称：French Corpus LLM — Sample 500 (v1.3.0)
提供方：FINALEADS LLC
许可协议：Etalab-2.0（法国开放许可2.0，兼容CC-BY-4.0）
语言：法语（fra_Latn）
数据集规模：少于1,000个样本
任务类别：文本生成、文本检索、填充掩码、摘要

数据集简介

该数据集是French Premium Web Corpus v1.3.0完整版的一个公开样本，包含500份分层抽样的文档，覆盖金融、监管、法律和隐私领域。完整语料库包含约293万份文档、约26亿个token。

数据来源与分布

样本中的500份文档来自以下来源（按文档数量排列）：

来源	文档数	描述
legifrance_jorf	190	法国共和国官方杂志（法律、法令、命令）
eurlex_fr	102	欧盟法规和指令的法语翻译
legifrance_legi	63	法国法典汇编（民法典、商法典、税法等）
kali	57	全国集体谈判协议
jade	55	最高行政法院裁决
bofip	12	法国公共财政总局税务原则
cass	10	最高司法法院裁决
amf_v2	8	金融市场管理局原则与制裁
dgtresor	3	法国财政部分析报告

样本按第4阶段LLM评分（llm_score_composite）排名前10%的文档进行分层抽样。

数据字段

每条记录包含34个结构化字段，分为以下几类：

标识字段：id、source、upstream_id、url
文本字段：text（UTF-8纯文本）、extracted_at
语言字段：lang、lang_score
长度字段：n_chars、n_words、n_sents、n_tokens_est
质量评分字段（第2阶段CPU评分）：avg_word_len、type_token_ratio、upper_ratio、digit_ratio、punct_ratio、line_density、repetition_4gram、repetition_line、boilerplate_score、lexique3_ratio、kenlm_perplexity、quality_score、quality_tier
主题标签（第3阶段）：is_finance_topical（布尔）、is_regulatory_topical（布尔）、sub_vertical
LLM评分字段（第4b阶段）：llm_coherence、llm_legal_density、llm_ai_slop、llm_finance_value、llm_toxicity、llm_score_composite、llm_tier、llm_raw

版本更新（v1.3 vs v1.2）

v1.3版本相比v1.2新增了三大支柱：

判例法：新增657,446份裁决（来自最高司法法院CASS和最高行政法院JADE）
隐私/GDPR原则：新增5,135份CNIL审议文件（1979-2025年）
宪法法律：新增3,192份宪法委员会决定

整体文档数量从约215万增至约293万，增幅37%。

数据合规与质量

数据溯源：每条记录携带source、upstream_id和url字段，指向官方权威机构出版物
去重：采用MinHash LSH（Jaccard阈值0.7, k=5 shingle, 128次排列），整体去重率27.4%
管道加密锚点：v1.3管道内容哈希值：2fc1de058fd85f3f3eedc73c1f8a89b571b6e6d70cfa525b202cb3b622f064db
GDPR假名化：对所有包含自然人标识的来源（CASS、CNIL、AMF、ACPR）进行假名化处理
EU AI Act Article 10合规：提供数据治理文档，包括逐文档溯源、质量评分方法、主题标签和去重方法

限制与局限

仅包含500份文档样本，不适用于训练
样本按LLM评分前10%分层抽样，小规模来源（CNIL、CONSTIT、ACPR等）代表性不足
EU法规仅包含2022年及之前的内容
v1.3.0版本不包含预计算嵌入向量

使用场景

法语监管检索器评估（RAG、稠密+稀疏混合）
法语法律/金融领域特定SFT数据构建
基于引用的法语文档问答基准测试
跨机构监管原则比较分析
GDPR/AI Act合规研究
数据质量方法研究

数据加载示例

python from datasets import load_dataset

ds = load_dataset("finaleads/french-corpus-llm-sample", split="sample") print(ds[0]["text"][:500]) print("source:", ds[0]["source"]) print("quality_tier:", ds[0]["quality_tier"]) print("llm_tier:", ds[0]["llm_tier"]) print("llm_score_composite:", ds[0]["llm_score_composite"])

引用信息

bibtex @misc{finaleads_french_corpus_llm_2026_sample_v1_3, author = {FINALEADS LLC}, title = {French Corpus LLM --- Sample 500 (v1.3.0)}, year = {2026}, month = {may}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/finaleads/french-corpus-llm-sample}, note = {Pipeline content SHA-256: 2fc1de058fd85f3f3eedc73c1f8a89b571b6e6d70cfa525b202cb3b622f064db} }

搜集汇总

数据集介绍

构建方式

该数据集是基于法国监管生态系统的多源异构语料库构建而成，涵盖了立法（LEGI）、官方公报（JORF）、税务学说（BOFiP）、审慎监管（ACPR）、市场规制（AMF）、货币政策（BdF）、公共经济学（DG Trésor）以及宪法审查（Conseil constitutionnel）等多个权威来源。构建过程中，采用了流水线式的处理流程，包括文本提取、伪匿名化、跨源去重（基于MinHash LSH，Jaccard阈值0.7）、质量评分以及LLM判别标签生成。样本集从完整语料库中抽取了评分最高的前10%文档，以保证内容质量。

特点

该数据集的核心特色在于其高度结构化的元数据体系，每个文档均配备了34个结构化字段，涵盖身份标识、文本长度、质量指标、主题标签及LLM判别评分。其中，LLM判别评分（llm_score_composite）通过大语言模型对文档的连贯性、法律密度、金融价值等维度进行综合评估，实现了对语料质量的精细化分层。此外，数据集严格遵循欧盟《人工智能法案》第10条的数据治理要求，提供了完整的来源溯源、去重方法论及流水线加密锚定，确保了训练数据的合规性和可审计性。

使用方法

该数据集支持通过Hugging Face Datasets库直接加载，用户可使用`load_dataset`函数获取500个样本文档，并访问其文本内容及各维度评分字段。同时，也提供了原始JSON Lines格式的读取方式，便于自行解析。样本集主要适用于法国法律法规检索系统的评测、领域特定指令微调数据的构建、基于引用的问答基准测试以及监管机构学说之间的比较分析。对于完整语料库的访问，可通过Snowflake Marketplace获取5万文档的试用版，或通过官方网站订阅商业版本。

背景与挑战

背景概述

French Corpus LLM — Sample 500 (v1.3.0) 是由 FINALEADS LLC 于 2026 年 5 月发布的法语高质量语料库样本，专为受监管行业（金融、法律、隐私合规）设计。该数据集源自法国 Premium Web Corpus v1.3.0，包含 500 份经分层抽样得到的文档，覆盖法律条文、判例、监管指南及 GDPR 相关文本。其核心研究问题在于为欧洲企业提供具备完整溯源链、伪匿名化且符合欧盟 AI 法案第 10 条数据治理要求的训练语料，以支撑基础模型与 RegTech 系统的合规部署。该数据集在法国法律 NLP、金融文档检索及隐私合规研究领域具有重要影响力，填补了法语高质量监管文本公开数据集的空白。

当前挑战

该数据集面临的挑战主要体现在三个方面：其一，领域问题方面，法语法律与金融文本存在术语密集、逻辑严密、跨领域交叉等特点，传统通用语料难以满足下游任务（如判决文书检索、监管问答、税务分类）对专业性和准确性的要求。其二，构建过程中，需从 2.93 百万文档、涵盖十余个异构来源（如 Legifrance、EUR-Lex、CNIL、BOFiP）的庞杂数据中，通过 MinHash LSH 去重（阈值 0.7）、LLM 评分分层筛选及 34 字段结构化标注，确保质量与代表性。其三，隐私与合规要求极高，需对包含自然人标识的判例（如 Cour de cassation）和监管制裁（如 CNIL）实施伪匿名化处理，同时维护 AI 法案第 10 条所需的文档溯源与质量文档。

常用场景

经典使用场景

在法语自然语言处理领域，该数据集最经典的使用场景是作为评估法语监管检索系统的基准测试集。研究者可以基于这500份分层抽样文档，构建检索增强生成（RAG）管线的评测框架，尤其适合测试混合检索架构（融合稠密向量与稀疏索引）在法语法律、金融和监管文本上的召回精度。数据集提供的34个结构化字段，包括质量评分与语言模型判分，使得研究者能够精细分析检索系统的表现瓶颈，从而推动高效检索算法的迭代优化。

衍生相关工作

该数据集的衍生工作丰富而深刻。它直接推动了面向法语法律领域的检索增强生成系统研究，衍生出基于判决文书与行政法规的引证式问答基准任务。数据集的伪匿名化管线为自然语言处理中的隐私保护研究提供了可资借鉴的技术方案，特别是在法律文本中自然人标识的系统性脱敏方面。此外，数据集所采用的二阶段质量评估架构（CPU统计判分与LLM语义判分）已成为法语监管语料清洗的标准操作流程，并催生了一系列关于跨源文档去重阈值优化与反事实数据增强的后续研究。

数据集最近研究