INPI-France/Brevets-Francais-2024-Chunked

Name: INPI-France/Brevets-Francais-2024-Chunked
Creator: INPI-France
Published: 2026-02-09 02:54:30
License: 暂无描述

Hugging Face2026-02-09 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/INPI-France/Brevets-Francais-2024-Chunked

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 language: - fr configs: - config_name: default data_files: - split: train path: - train-00000.parquet - train-00001.parquet - train-00002.parquet - train-00003.parquet - train-00004.parquet - train-00005.parquet - train-00006.parquet - train-00007.parquet - train-00008.parquet - train-00009.parquet - train-00010.parquet - train-00011.parquet - train-00012.parquet - train-00013.parquet - train-00014.parquet - train-00015.parquet - train-00016.parquet - train-00017.parquet - train-00018.parquet - train-00019.parquet - train-00020.parquet - train-00021.parquet - train-00022.parquet - train-00023.parquet - train-00024.parquet - train-00025.parquet - train-00026.parquet - train-00027.parquet - train-00028.parquet - train-00029.parquet - train-00030.parquet - train-00031.parquet - train-00032.parquet - train-00033.parquet - train-00034.parquet --- # 🇫🇷 Brevets français 2024 Chunké 🇫🇷 Dataset de **brevets français publiés en 2024**, extrait depuis les XML d’origine et **chunké** au niveau des balises `<p>` xml Format : **Parquet**, prêt pour chargement streaming / distribué. --- ## Source Données issues de **documents publics de brevets français (A1, 2024)**. Extraction, structuration et découpage réalisés de manière indépendante grace a un acces aux API/FTP PI (sur demande a l'inpi). --- ## Génération Entrée : - **35 479 fichiers XML** Sortie : - **3 321 782 lignes** - **35 shards Parquet** --- ## Schéma Chaque ligne correspond à un chunk de texte. Colonnes : - `publication_number` - `kind` - `publication_date` - `data_type` - `section` - `claim_id` - `text` - `text_len` --- ## Usage prévu - pré-entraînement LLM (fr) - NLP technique / juridique - RAG / indexation vectorielle - benchmarks tokenizer / tokenizer-free - data engineering à grande échelle --- ## Notes - pas de réécriture du texte - pas de nettoyage sémantique lourd - chunks bruts, déterministes - dataset orienté **compute / scale** --- ## Licence Apache 2.0 En cas de confusion liée au nom ou à la présentation du dataset ou de l’organisation, **les éléments concernés pourront être modifiés**.

提供机构：

INPI-France

5,000+

优质数据集

54 个

任务类型

进入经典数据集