INPI-France/Brevets-Francais-2024-Chunked
收藏Hugging Face2026-02-09 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/INPI-France/Brevets-Francais-2024-Chunked
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
language:
- fr
configs:
- config_name: default
data_files:
- split: train
path:
- train-00000.parquet
- train-00001.parquet
- train-00002.parquet
- train-00003.parquet
- train-00004.parquet
- train-00005.parquet
- train-00006.parquet
- train-00007.parquet
- train-00008.parquet
- train-00009.parquet
- train-00010.parquet
- train-00011.parquet
- train-00012.parquet
- train-00013.parquet
- train-00014.parquet
- train-00015.parquet
- train-00016.parquet
- train-00017.parquet
- train-00018.parquet
- train-00019.parquet
- train-00020.parquet
- train-00021.parquet
- train-00022.parquet
- train-00023.parquet
- train-00024.parquet
- train-00025.parquet
- train-00026.parquet
- train-00027.parquet
- train-00028.parquet
- train-00029.parquet
- train-00030.parquet
- train-00031.parquet
- train-00032.parquet
- train-00033.parquet
- train-00034.parquet
---
# 🇫🇷 Brevets français 2024 Chunké 🇫🇷
Dataset de **brevets français publiés en 2024**, extrait depuis les XML d’origine et **chunké** au niveau des balises `<p>` xml
Format : **Parquet**, prêt pour chargement streaming / distribué.
---
## Source
Données issues de **documents publics de brevets français (A1, 2024)**.
Extraction, structuration et découpage réalisés de manière indépendante grace a un acces aux API/FTP PI (sur demande a l'inpi).
---
## Génération
Entrée :
- **35 479 fichiers XML**
Sortie :
- **3 321 782 lignes**
- **35 shards Parquet**
---
## Schéma
Chaque ligne correspond à un chunk de texte.
Colonnes :
- `publication_number`
- `kind`
- `publication_date`
- `data_type`
- `section`
- `claim_id`
- `text`
- `text_len`
---
## Usage prévu
- pré-entraînement LLM (fr)
- NLP technique / juridique
- RAG / indexation vectorielle
- benchmarks tokenizer / tokenizer-free
- data engineering à grande échelle
---
## Notes
- pas de réécriture du texte
- pas de nettoyage sémantique lourd
- chunks bruts, déterministes
- dataset orienté **compute / scale**
---
## Licence
Apache 2.0
En cas de confusion liée au nom ou à la présentation du dataset ou de l’organisation,
**les éléments concernés pourront être modifiés**.
提供机构:
INPI-France



