French Premium Web Corpus — Finance, Regulation & Economic Edition
收藏Snowflake2026-05-15 更新2026-05-17 收录
下载链接:
https://app.snowflake.com/marketplace/listing/GZTWZRWEJ2
下载链接
链接失效反馈官方服务:
资源简介:
The French Premium Web Corpus (FPWC) is the only commercial-grade training corpus dedicated to French-language finance, prudential regulation, and economic text. Release **fpwc-v1.2.0-2026-05-15** contains 2,148,446 documents totalling approximately 2.37 billion tokens, sourced exclusively from European Union public-sector primary records under permissive open licences (Licence Ouverte 2.0 and EU Decision 2011/833).
## What this Limited Trial contains
- 50,000 high-quality documents stratified across all 11 sources, preserving the exact proportions of the Premium tier
- 14 columns: id, source, url, text, n_chars, n_tokens_est, lang, extracted_at, quality_score, quality_tier, is_finance_topical, sub_vertical, llm_score_composite, llm_tier
- Single secure view: `V_DOCUMENTS` — queryable in-place, no download required
- 7-day evaluation window per consumer account
## Sources
- **DILA** — Légifrance JORF (Journal officiel), LEGI (consolidated codes), CASS (Cour de cassation), JADE (Conseil d'État), CONSTIT (Conseil constitutionnel), KALI (National Collective Agreements)
- **EUR-Lex** — EU regulations and directives in French (EU public legislation, CC-BY-4.0)
- **DGFiP** — BOFiP-Impôts tax doctrine
- **ACPR** — Prudential regulator doctrine and sanctions
- **Banque de France** — Institutional publications
- **DG Trésor** — Treasury publications
## Provenance & compliance
Every document in the full FPWC ships with a per-record JSON-LD provenance trail using W3C PROV-O vocabulary, plus an EU AI Act Article 10 declaration block. The full corpus is accompanied by a 38-page Dataset Specification Document, cryptographically signed (PAdES PKCS#7 RSA-4096).
- Pipeline content SHA-256: `9071408943537d14e99381c3265a14cce43eeb077942b53ea38344406eb5d98d`
- Licences: Licence Ouverte 2.0 (Etalab), EU Decision 2011/833/EU
- Refresh: monthly regulatory delta, quarterly full rebuild
- GDPR Art. 17 retraction: rehearsed 4-minute identification + 30-minute re-release
- Audit trail: 1,038,519 per-document JSON-LD records using W3C PROV-O
## Production tiers
This Limited Trial offers a 7-day evaluation of 50,000 stratified documents. Production-scale tiers — full corpus, monthly refresh, quality filtering (distilled score), sub-vertical slicing, and private replication — will be available as separate paid listings on the Snowflake Marketplace.
## Data scale
- Limited Trial: 50,000 rows · ~50M tokens · ~73 MB (Parquet zstd) — 7-day access
- Full Standard: 2,148,446 rows · ~2.37B tokens · ~9.5 GB (Parquet zstd)
提供机构:
FINALEADS LLC
创建时间:
2026-05-14
原始信息汇总
数据集名称
French Premium Web Corpus — Finance, Regulation & Economic Edition
提供者
FINALEADS LLC
定价与访问
- 免费:有限试用版(Limited Trial)
- 无限访问:需获取完整版(预计为付费)
数据集简介
本数据集是一个专为法语金融、审慎监管和经济文本设计的商业级训练语料库。版本 fpwc-v1.2.0-2026-05-15 包含约 2,148,446 篇文档,总计约 23.7 亿 tokens,数据来源均为欧盟公共部门一级记录,基于许可宽松的开放许可(Licence Ouverte 2.0 和 EU Decision 2011/833)。
有限试用版(Limited Trial)内容
- 包含 50,000 篇高质量文档,按比例分层抽样自完整版的11个数据源。
- 提供 14 个列:
id,source,url,text,n_chars,n_tokens_est,lang,extracted_at,quality_score,quality_tier,is_finance_topical,sub_vertical,llm_score_composite,llm_tier。 - 数据通过单一安全视图
V_DOCUMENTS提供,无需下载,可在原地查询。 - 每个消费者账户享有 7 天评估窗口。
数据源
- DILA:涵盖 Légifrance JORF(官方公报)、LEGI(统一法典)、CASS(最高法院)、JADE(最高行政法院)、CONSTIT(宪法委员会)、KALI(全国集体协议)。
- EUR-Lex:法语版欧盟法规和指令(CC-BY-4.0)。
- DGFiP:BOFiP-Impôts 税务原则。
- ACPR:审慎监管机构的原则和制裁。
- Banque de France:机构出版物。
- DG Trésor:国库出版物。
溯源与合规
- 每篇文档均附带使用 W3C PROV-O 词汇表的 JSON-LD 溯源记录,以及欧盟 AI 法案第 10 条声明块。
- 完整语料库附带一份 38 页的数据集规范文档,并经过加密签名(PAdES PKCS#7 RSA-4096)。
- 流水线内容 SHA-256:
9071408943537d14e99381c3265a14cce43eeb077942b53ea38344406eb5d98d - 许可协议:Licence Ouverte 2.0 (Etalab)、EU Decision 2011/833/EU
- 更新频率:月度监管增量更新,季度全面重建。
- GDPR 第 17 条撤回:可在 4 分钟内完成识别,30 分钟内重新发布。
- 审计追踪:1,038,519 条基于 W3C PROV-O 的每文档 JSON-LD 记录。
数据规模
- 有限试用版:50,000 行 · 约 5000 万 tokens · 约 73 MB(Parquet zstd 压缩)—— 7 天访问
- 完整标准版:2,148,446 行 · 约 23.7 亿 tokens · 约 9.5 GB(Parquet zstd 压缩)
业务需求
- 机器学习:高质量的法语文本,覆盖监管法典、税务原则和判例法,经过预清洗和评分,可直接用于 LLM 训练,并附带 AI 法案第 10 条文档。
- 真实世界数据:来自 DILA、EUR-Lex、ACPR、AMF、BdF、DGFiP、DGTrésor 的权威源文本,是市场上最广泛的商业法语金融语料库。
- 合规:每文档的 JSON-LD 溯源和 AI 法案第 10 条声明,使下游 AI 系统从第一天起就能满足数据治理义务。
- 风险管理:涵盖 ACPR 制裁、AML/Tracfin 义务、MiFID II、DORA、CSRD 等源文本,适用于训练风险分类和决策支持型 LLM。
- 法律研究:完整的最高法院、最高行政法院和宪法委员会判例库,可在 Snowflake 内部直接搜索。
数据字典
视图名称:V_DOCUMENTS
| 字段名 | 类型 | 描述 |
|---|---|---|
| EXTRACTED_AT | Timestamp_TZ | 提取时间 |
| ID | Varchar | 文档 ID |
| IS_FINANCE_TOPICAL | Boolean | 是否属于金融主题 |
| LANG | Varchar | 语言 |
| LLM_SCORE_COMPOSITE | Float | LLM 综合评分 |
| LLM_TIER | Varchar | LLM 层级 |
| N_CHARS | Number | 字符数 |
| N_TOKENS_EST | Number | 估计的 token 数 |
| QUALITY_SCORE | Float | 质量评分 |
| QUALITY_TIER | Varchar | 质量层级 |
类别
Financial, Machine Learning, Real World Data (RWD)
交付方式
Secure share(安全共享)
刷新频率
Quarterly(季度)
法律条款
Custom(自定义)
联系方式
- 销售与支持:support@finaleads.com
关于提供方
FINALEADS LLC 为法语受监管行业构建合规就绪的训练数据集,将超过 20 亿 tokens 的法语金融、监管和经济开放数据转化为附带审计追踪、伪匿名化和 AI 法案第 10 条文档的安全共享数据。



