five

INPI-France/FR-Patent-1981-2026-Clean

收藏
Hugging Face2026-03-23 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/INPI-France/FR-Patent-1981-2026-Clean
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 language: - fr configs: - config_name: default data_files: - split: train path: - train-00000.parquet - train-00001.parquet - train-00002.parquet - train-00003.parquet - train-00004.parquet - train-00005.parquet - train-00006.parquet - train-00007.parquet - train-00008.parquet - train-00009.parquet - train-00010.parquet - train-00011.parquet - train-00012.parquet - train-00013.parquet - train-00014.parquet - train-00015.parquet - train-00016.parquet - train-00017.parquet - train-00018.parquet - train-00019.parquet - train-00020.parquet - train-00021.parquet - train-00022.parquet - train-00023.parquet - train-00024.parquet - train-00025.parquet - train-00026.parquet - train-00027.parquet - train-00028.parquet - train-00029.parquet - train-00030.parquet - train-00031.parquet - train-00032.parquet - train-00033.parquet - train-00034.parquet - train-00035.parquet - train-00036.parquet - train-00037.parquet - train-00038.parquet - train-00039.parquet - train-00040.parquet - train-00041.parquet - train-00042.parquet - train-00043.parquet - train-00044.parquet - train-00045.parquet - train-00046.parquet - train-00047.parquet - train-00048.parquet - train-00049.parquet - train-00050.parquet - train-00051.parquet - train-00052.parquet - train-00053.parquet - train-00054.parquet - train-00055.parquet - train-00056.parquet - train-00057.parquet - train-00058.parquet - train-00059.parquet - train-00060.parquet - train-00061.parquet - train-00062.parquet - train-00063.parquet - train-00064.parquet - train-00065.parquet - train-00066.parquet --- # 🇫🇷 Brevets français 1981–2026 — Clean 🇫🇷 Dataset de **brevets français publiés entre 1981 et 2026**, extrait depuis les XML d’origine, avec **un document = une ligne** (texte complet). Format : **Parquet**, prêt pour chargement streaming / distribué. --- ## Source Données issues de **documents publics de brevets français (A1)**. Extraction, structuration et nettoyage réalisés de manière indépendante grâce à un accès aux **API / FTP PI** (sur demande à l’INPI). --- ## Génération Entrée : - **822 310 fichiers XML** Sortie : - **822 310 lignes** - **67 shards Parquet** --- ## Schéma Chaque ligne correspond à **un brevet complet**. Colonnes : - `publication_number` - `kind` - `publication_date` - `data_type` - `section` - `claim_id` - `text` - `text_len` --- ## Notes - texte complet, non tronqué - nettoyage structurel uniquement - pas de réécriture sémantique - pas de segmentation interne - dataset orienté **long-context / compute** --- ## Licence Apache 2.0 En cas de confusion liée au nom ou à la présentation du dataset ou de l’organisation, **les éléments concernés pourront être modifiés**.
提供机构:
INPI-France
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作