french-corpus-llm-sample
收藏数据集概述:French Corpus LLM — Sample 500 (v1.3.0)
基本信息
- 数据集名称:French Corpus LLM — Sample 500 (v1.3.0)
- 提供方:FINALEADS LLC
- 许可协议:Etalab-2.0(法国开放许可2.0,兼容CC-BY-4.0)
- 语言:法语(fra_Latn)
- 数据集规模:少于1,000个样本
- 任务类别:文本生成、文本检索、填充掩码、摘要
数据集简介
该数据集是French Premium Web Corpus v1.3.0完整版的一个公开样本,包含500份分层抽样的文档,覆盖金融、监管、法律和隐私领域。完整语料库包含约293万份文档、约26亿个token。
数据来源与分布
样本中的500份文档来自以下来源(按文档数量排列):
| 来源 | 文档数 | 描述 |
|---|---|---|
| legifrance_jorf | 190 | 法国共和国官方杂志(法律、法令、命令) |
| eurlex_fr | 102 | 欧盟法规和指令的法语翻译 |
| legifrance_legi | 63 | 法国法典汇编(民法典、商法典、税法等) |
| kali | 57 | 全国集体谈判协议 |
| jade | 55 | 最高行政法院裁决 |
| bofip | 12 | 法国公共财政总局税务原则 |
| cass | 10 | 最高司法法院裁决 |
| amf_v2 | 8 | 金融市场管理局原则与制裁 |
| dgtresor | 3 | 法国财政部分析报告 |
样本按第4阶段LLM评分(llm_score_composite)排名前10%的文档进行分层抽样。
数据字段
每条记录包含34个结构化字段,分为以下几类:
- 标识字段:id、source、upstream_id、url
- 文本字段:text(UTF-8纯文本)、extracted_at
- 语言字段:lang、lang_score
- 长度字段:n_chars、n_words、n_sents、n_tokens_est
- 质量评分字段(第2阶段CPU评分):avg_word_len、type_token_ratio、upper_ratio、digit_ratio、punct_ratio、line_density、repetition_4gram、repetition_line、boilerplate_score、lexique3_ratio、kenlm_perplexity、quality_score、quality_tier
- 主题标签(第3阶段):is_finance_topical(布尔)、is_regulatory_topical(布尔)、sub_vertical
- LLM评分字段(第4b阶段):llm_coherence、llm_legal_density、llm_ai_slop、llm_finance_value、llm_toxicity、llm_score_composite、llm_tier、llm_raw
版本更新(v1.3 vs v1.2)
v1.3版本相比v1.2新增了三大支柱:
- 判例法:新增657,446份裁决(来自最高司法法院CASS和最高行政法院JADE)
- 隐私/GDPR原则:新增5,135份CNIL审议文件(1979-2025年)
- 宪法法律:新增3,192份宪法委员会决定
整体文档数量从约215万增至约293万,增幅37%。
数据合规与质量
- 数据溯源:每条记录携带source、upstream_id和url字段,指向官方权威机构出版物
- 去重:采用MinHash LSH(Jaccard阈值0.7, k=5 shingle, 128次排列),整体去重率27.4%
- 管道加密锚点:v1.3管道内容哈希值:
2fc1de058fd85f3f3eedc73c1f8a89b571b6e6d70cfa525b202cb3b622f064db - GDPR假名化:对所有包含自然人标识的来源(CASS、CNIL、AMF、ACPR)进行假名化处理
- EU AI Act Article 10合规:提供数据治理文档,包括逐文档溯源、质量评分方法、主题标签和去重方法
限制与局限
- 仅包含500份文档样本,不适用于训练
- 样本按LLM评分前10%分层抽样,小规模来源(CNIL、CONSTIT、ACPR等)代表性不足
- EU法规仅包含2022年及之前的内容
- v1.3.0版本不包含预计算嵌入向量
使用场景
- 法语监管检索器评估(RAG、稠密+稀疏混合)
- 法语法律/金融领域特定SFT数据构建
- 基于引用的法语文档问答基准测试
- 跨机构监管原则比较分析
- GDPR/AI Act合规研究
- 数据质量方法研究
数据加载示例
python from datasets import load_dataset
ds = load_dataset("finaleads/french-corpus-llm-sample", split="sample") print(ds[0]["text"][:500]) print("source:", ds[0]["source"]) print("quality_tier:", ds[0]["quality_tier"]) print("llm_tier:", ds[0]["llm_tier"]) print("llm_score_composite:", ds[0]["llm_score_composite"])
引用信息
bibtex @misc{finaleads_french_corpus_llm_2026_sample_v1_3, author = {FINALEADS LLC}, title = {French Corpus LLM --- Sample 500 (v1.3.0)}, year = {2026}, month = {may}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/finaleads/french-corpus-llm-sample}, note = {Pipeline content SHA-256: 2fc1de058fd85f3f3eedc73c1f8a89b571b6e6d70cfa525b202cb3b622f064db} }




