INPI-France/FR-Patent-1981-2026-Clean
收藏Hugging Face2026-03-23 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/INPI-France/FR-Patent-1981-2026-Clean
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
language:
- fr
configs:
- config_name: default
data_files:
- split: train
path:
- train-00000.parquet
- train-00001.parquet
- train-00002.parquet
- train-00003.parquet
- train-00004.parquet
- train-00005.parquet
- train-00006.parquet
- train-00007.parquet
- train-00008.parquet
- train-00009.parquet
- train-00010.parquet
- train-00011.parquet
- train-00012.parquet
- train-00013.parquet
- train-00014.parquet
- train-00015.parquet
- train-00016.parquet
- train-00017.parquet
- train-00018.parquet
- train-00019.parquet
- train-00020.parquet
- train-00021.parquet
- train-00022.parquet
- train-00023.parquet
- train-00024.parquet
- train-00025.parquet
- train-00026.parquet
- train-00027.parquet
- train-00028.parquet
- train-00029.parquet
- train-00030.parquet
- train-00031.parquet
- train-00032.parquet
- train-00033.parquet
- train-00034.parquet
- train-00035.parquet
- train-00036.parquet
- train-00037.parquet
- train-00038.parquet
- train-00039.parquet
- train-00040.parquet
- train-00041.parquet
- train-00042.parquet
- train-00043.parquet
- train-00044.parquet
- train-00045.parquet
- train-00046.parquet
- train-00047.parquet
- train-00048.parquet
- train-00049.parquet
- train-00050.parquet
- train-00051.parquet
- train-00052.parquet
- train-00053.parquet
- train-00054.parquet
- train-00055.parquet
- train-00056.parquet
- train-00057.parquet
- train-00058.parquet
- train-00059.parquet
- train-00060.parquet
- train-00061.parquet
- train-00062.parquet
- train-00063.parquet
- train-00064.parquet
- train-00065.parquet
- train-00066.parquet
---
# 🇫🇷 Brevets français 1981–2026 — Clean 🇫🇷
Dataset de **brevets français publiés entre 1981 et 2026**, extrait depuis les XML d’origine, avec **un document = une ligne** (texte complet).
Format : **Parquet**, prêt pour chargement streaming / distribué.
---
## Source
Données issues de **documents publics de brevets français (A1)**.
Extraction, structuration et nettoyage réalisés de manière indépendante grâce à un accès aux **API / FTP PI** (sur demande à l’INPI).
---
## Génération
Entrée :
- **822 310 fichiers XML**
Sortie :
- **822 310 lignes**
- **67 shards Parquet**
---
## Schéma
Chaque ligne correspond à **un brevet complet**.
Colonnes :
- `publication_number`
- `kind`
- `publication_date`
- `data_type`
- `section`
- `claim_id`
- `text`
- `text_len`
---
## Notes
- texte complet, non tronqué
- nettoyage structurel uniquement
- pas de réécriture sémantique
- pas de segmentation interne
- dataset orienté **long-context / compute**
---
## Licence
Apache 2.0
En cas de confusion liée au nom ou à la présentation du dataset ou de l’organisation,
**les éléments concernés pourront être modifiés**.
提供机构:
INPI-France



