ZoeYou/INPI-CLS
收藏数据集概述
数据集名称
INPI-CLS
数据集描述
INPI-CLS是一个法国专利语料库,从法国国家工业产权局(INPI)的内部数据库中提取。该数据集最初设计用于专利分类任务,包含约296k份专利文本(包括标题、摘要、声明和描述),这些文本发布于2002年至2021年之间。每个专利文档都带有从部分到IPC子组级别的标签。
语言
- 法语
领域
- 专利(知识产权)
社会影响
该数据集旨在帮助开发模型,以实现在国际专利分类(IPC)系统标准下对法国专利的分类。由于数据的高完整性,INPI-CLS语料库可用于各种关于法语专利的分析研究,并且作为科学语料库,全面记录了该国的技术发明。
引用信息
@inproceedings{zuo:hal-03850405, TITLE = {{Patent Classification using Extreme Multi-label Learning: A Case Study of French Patents}}, AUTHOR = {Zuo, You and Mouzoun, Houda and Ghamri Doudane, Samir and Gerdes, Kim and Sagot, Beno{^i}t}, URL = {https://hal.archives-ouvertes.fr/hal-03850405}, BOOKTITLE = {{SIGIR 2022 - PatentSemTech workshop}}, ADDRESS = {Madrid, Spain}, YEAR = {2022}, MONTH = Jul, KEYWORDS = {IPC prediction ; Clustering and Classification ; Extreme Multi-label Learning ; French ; Patent}, PDF = {https://hal.archives-ouvertes.fr/hal-03850405/file/PatentSemTech_2022___extended_abstract.pdf}, HAL_ID = {hal-03850405}, HAL_VERSION = {v1}, }




