five

INPI-France/Brevets-Francais-2024-Chunked

收藏
Hugging Face2026-02-09 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/INPI-France/Brevets-Francais-2024-Chunked
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 language: - fr configs: - config_name: default data_files: - split: train path: - train-00000.parquet - train-00001.parquet - train-00002.parquet - train-00003.parquet - train-00004.parquet - train-00005.parquet - train-00006.parquet - train-00007.parquet - train-00008.parquet - train-00009.parquet - train-00010.parquet - train-00011.parquet - train-00012.parquet - train-00013.parquet - train-00014.parquet - train-00015.parquet - train-00016.parquet - train-00017.parquet - train-00018.parquet - train-00019.parquet - train-00020.parquet - train-00021.parquet - train-00022.parquet - train-00023.parquet - train-00024.parquet - train-00025.parquet - train-00026.parquet - train-00027.parquet - train-00028.parquet - train-00029.parquet - train-00030.parquet - train-00031.parquet - train-00032.parquet - train-00033.parquet - train-00034.parquet --- # 🇫🇷 Brevets français 2024 Chunké 🇫🇷 Dataset de **brevets français publiés en 2024**, extrait depuis les XML d’origine et **chunké** au niveau des balises `<p>` xml Format : **Parquet**, prêt pour chargement streaming / distribué. --- ## Source Données issues de **documents publics de brevets français (A1, 2024)**. Extraction, structuration et découpage réalisés de manière indépendante grace a un acces aux API/FTP PI (sur demande a l'inpi). --- ## Génération Entrée : - **35 479 fichiers XML** Sortie : - **3 321 782 lignes** - **35 shards Parquet** --- ## Schéma Chaque ligne correspond à un chunk de texte. Colonnes : - `publication_number` - `kind` - `publication_date` - `data_type` - `section` - `claim_id` - `text` - `text_len` --- ## Usage prévu - pré-entraînement LLM (fr) - NLP technique / juridique - RAG / indexation vectorielle - benchmarks tokenizer / tokenizer-free - data engineering à grande échelle --- ## Notes - pas de réécriture du texte - pas de nettoyage sémantique lourd - chunks bruts, déterministes - dataset orienté **compute / scale** --- ## Licence Apache 2.0 En cas de confusion liée au nom ou à la présentation du dataset ou de l’organisation, **les éléments concernés pourront être modifiés**.
提供机构:
INPI-France
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作