five

French Premium Web Corpus — Finance, Regulation & Economic Edition

收藏
Snowflake2026-05-15 更新2026-05-17 收录
下载链接:
https://app.snowflake.com/marketplace/listing/GZTWZRWEJ2
下载链接
链接失效反馈
官方服务:
资源简介:
The French Premium Web Corpus (FPWC) is the only commercial-grade training corpus dedicated to French-language finance, prudential regulation, and economic text. Release **fpwc-v1.2.0-2026-05-15** contains 2,148,446 documents totalling approximately 2.37 billion tokens, sourced exclusively from European Union public-sector primary records under permissive open licences (Licence Ouverte 2.0 and EU Decision 2011/833). ## What this Limited Trial contains - 50,000 high-quality documents stratified across all 11 sources, preserving the exact proportions of the Premium tier - 14 columns: id, source, url, text, n_chars, n_tokens_est, lang, extracted_at, quality_score, quality_tier, is_finance_topical, sub_vertical, llm_score_composite, llm_tier - Single secure view: `V_DOCUMENTS` — queryable in-place, no download required - 7-day evaluation window per consumer account ## Sources - **DILA** — Légifrance JORF (Journal officiel), LEGI (consolidated codes), CASS (Cour de cassation), JADE (Conseil d'État), CONSTIT (Conseil constitutionnel), KALI (National Collective Agreements) - **EUR-Lex** — EU regulations and directives in French (EU public legislation, CC-BY-4.0) - **DGFiP** — BOFiP-Impôts tax doctrine - **ACPR** — Prudential regulator doctrine and sanctions - **Banque de France** — Institutional publications - **DG Trésor** — Treasury publications ## Provenance & compliance Every document in the full FPWC ships with a per-record JSON-LD provenance trail using W3C PROV-O vocabulary, plus an EU AI Act Article 10 declaration block. The full corpus is accompanied by a 38-page Dataset Specification Document, cryptographically signed (PAdES PKCS#7 RSA-4096). - Pipeline content SHA-256: `9071408943537d14e99381c3265a14cce43eeb077942b53ea38344406eb5d98d` - Licences: Licence Ouverte 2.0 (Etalab), EU Decision 2011/833/EU - Refresh: monthly regulatory delta, quarterly full rebuild - GDPR Art. 17 retraction: rehearsed 4-minute identification + 30-minute re-release - Audit trail: 1,038,519 per-document JSON-LD records using W3C PROV-O ## Production tiers This Limited Trial offers a 7-day evaluation of 50,000 stratified documents. Production-scale tiers — full corpus, monthly refresh, quality filtering (distilled score), sub-vertical slicing, and private replication — will be available as separate paid listings on the Snowflake Marketplace. ## Data scale - Limited Trial: 50,000 rows · ~50M tokens · ~73 MB (Parquet zstd) — 7-day access - Full Standard: 2,148,446 rows · ~2.37B tokens · ~9.5 GB (Parquet zstd)
提供机构:
FINALEADS LLC
创建时间:
2026-05-14
原始信息汇总

数据集名称

French Premium Web Corpus — Finance, Regulation & Economic Edition

提供者

FINALEADS LLC

定价与访问

  • 免费:有限试用版(Limited Trial)
  • 无限访问:需获取完整版(预计为付费)

数据集简介

本数据集是一个专为法语金融、审慎监管和经济文本设计的商业级训练语料库。版本 fpwc-v1.2.0-2026-05-15 包含约 2,148,446 篇文档,总计约 23.7 亿 tokens,数据来源均为欧盟公共部门一级记录,基于许可宽松的开放许可(Licence Ouverte 2.0 和 EU Decision 2011/833)。

有限试用版(Limited Trial)内容

  • 包含 50,000 篇高质量文档,按比例分层抽样自完整版的11个数据源。
  • 提供 14 个列id, source, url, text, n_chars, n_tokens_est, lang, extracted_at, quality_score, quality_tier, is_finance_topical, sub_vertical, llm_score_composite, llm_tier
  • 数据通过单一安全视图 V_DOCUMENTS 提供,无需下载,可在原地查询。
  • 每个消费者账户享有 7 天评估窗口

数据源

  • DILA:涵盖 Légifrance JORF(官方公报)、LEGI(统一法典)、CASS(最高法院)、JADE(最高行政法院)、CONSTIT(宪法委员会)、KALI(全国集体协议)。
  • EUR-Lex:法语版欧盟法规和指令(CC-BY-4.0)。
  • DGFiP:BOFiP-Impôts 税务原则。
  • ACPR:审慎监管机构的原则和制裁。
  • Banque de France:机构出版物。
  • DG Trésor:国库出版物。

溯源与合规

  • 每篇文档均附带使用 W3C PROV-O 词汇表的 JSON-LD 溯源记录,以及欧盟 AI 法案第 10 条声明块。
  • 完整语料库附带一份 38 页的数据集规范文档,并经过加密签名(PAdES PKCS#7 RSA-4096)。
  • 流水线内容 SHA-256:9071408943537d14e99381c3265a14cce43eeb077942b53ea38344406eb5d98d
  • 许可协议:Licence Ouverte 2.0 (Etalab)、EU Decision 2011/833/EU
  • 更新频率:月度监管增量更新,季度全面重建。
  • GDPR 第 17 条撤回:可在 4 分钟内完成识别,30 分钟内重新发布。
  • 审计追踪:1,038,519 条基于 W3C PROV-O 的每文档 JSON-LD 记录。

数据规模

  • 有限试用版:50,000 行 · 约 5000 万 tokens · 约 73 MB(Parquet zstd 压缩)—— 7 天访问
  • 完整标准版:2,148,446 行 · 约 23.7 亿 tokens · 约 9.5 GB(Parquet zstd 压缩)

业务需求

  • 机器学习:高质量的法语文本,覆盖监管法典、税务原则和判例法,经过预清洗和评分,可直接用于 LLM 训练,并附带 AI 法案第 10 条文档。
  • 真实世界数据:来自 DILA、EUR-Lex、ACPR、AMF、BdF、DGFiP、DGTrésor 的权威源文本,是市场上最广泛的商业法语金融语料库。
  • 合规:每文档的 JSON-LD 溯源和 AI 法案第 10 条声明,使下游 AI 系统从第一天起就能满足数据治理义务。
  • 风险管理:涵盖 ACPR 制裁、AML/Tracfin 义务、MiFID II、DORA、CSRD 等源文本,适用于训练风险分类和决策支持型 LLM。
  • 法律研究:完整的最高法院、最高行政法院和宪法委员会判例库,可在 Snowflake 内部直接搜索。

数据字典

视图名称:V_DOCUMENTS

字段名 类型 描述
EXTRACTED_AT Timestamp_TZ 提取时间
ID Varchar 文档 ID
IS_FINANCE_TOPICAL Boolean 是否属于金融主题
LANG Varchar 语言
LLM_SCORE_COMPOSITE Float LLM 综合评分
LLM_TIER Varchar LLM 层级
N_CHARS Number 字符数
N_TOKENS_EST Number 估计的 token 数
QUALITY_SCORE Float 质量评分
QUALITY_TIER Varchar 质量层级

类别

Financial, Machine Learning, Real World Data (RWD)

交付方式

Secure share(安全共享)

刷新频率

Quarterly(季度)

法律条款

Custom(自定义)

联系方式

  • 销售与支持:support@finaleads.com

关于提供方

FINALEADS LLC 为法语受监管行业构建合规就绪的训练数据集,将超过 20 亿 tokens 的法语金融、监管和经济开放数据转化为附带审计追踪、伪匿名化和 AI 法案第 10 条文档的安全共享数据。

二维码
社区交流群
二维码
科研交流群
商业服务