five

ZoeYou/INPI-CLS

收藏
Hugging Face2023-06-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ZoeYou/INPI-CLS
下载链接
链接失效反馈
官方服务:
资源简介:
INPI-CLS是一个从法国国家工业产权局(INPI)的内部数据库中提取的法国专利语料库。该数据集最初设计用于专利分类任务,包含大约296k个专利文本(包括标题、摘要、权利要求和描述),这些专利发布于2002年至2021年之间。每个专利都标注了从部分到IPC子组级别的标签。数据集的语言为法语,领域为知识产权(专利)。该数据集的目的是帮助开发模型,以便按照国际专利分类(IPC)系统标准对法国专利进行分类。由于其数据完整性高,该语料库可用于各种关于法语专利的分析研究,并作为全面记录国家技术发明的科学资源。

INPI-CLS is a French patent corpus extracted from the internal database of the National Institute of Industrial Property (INPI) of France. This dataset was initially designed for patent classification tasks, containing approximately 296k patent texts (including titles, abstracts, claims, and descriptions) of patents published between 2002 and 2021. Each patent is annotated with labels ranging from the section level to the IPC subgroup level. The dataset is in French, with its domain focusing on intellectual property (patents). The purpose of this dataset is to assist in developing models for classifying French patents in accordance with the standards of the International Patent Classification (IPC) system. Thanks to its high data integrity, this corpus can be used for various analytical studies on French patents and serves as a scientific resource comprehensively documenting national technological inventions.
提供机构:
ZoeYou
原始信息汇总

数据集概述

数据集名称

INPI-CLS

数据集描述

INPI-CLS是一个法国专利语料库,从法国国家工业产权局(INPI)的内部数据库中提取。该数据集最初设计用于专利分类任务,包含约296k份专利文本(包括标题、摘要、声明和描述),这些文本发布于2002年至2021年之间。每个专利文档都带有从部分到IPC子组级别的标签。

语言

  • 法语

领域

  • 专利(知识产权)

社会影响

该数据集旨在帮助开发模型,以实现在国际专利分类(IPC)系统标准下对法国专利的分类。由于数据的高完整性,INPI-CLS语料库可用于各种关于法语专利的分析研究,并且作为科学语料库,全面记录了该国的技术发明。

引用信息

@inproceedings{zuo:hal-03850405, TITLE = {{Patent Classification using Extreme Multi-label Learning: A Case Study of French Patents}}, AUTHOR = {Zuo, You and Mouzoun, Houda and Ghamri Doudane, Samir and Gerdes, Kim and Sagot, Beno{^i}t}, URL = {https://hal.archives-ouvertes.fr/hal-03850405}, BOOKTITLE = {{SIGIR 2022 - PatentSemTech workshop}}, ADDRESS = {Madrid, Spain}, YEAR = {2022}, MONTH = Jul, KEYWORDS = {IPC prediction ; Clustering and Classification ; Extreme Multi-label Learning ; French ; Patent}, PDF = {https://hal.archives-ouvertes.fr/hal-03850405/file/PatentSemTech_2022___extended_abstract.pdf}, HAL_ID = {hal-03850405}, HAL_VERSION = {v1}, }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个法国专利文本集合,包含2002年至2021年间发布的约296k条专利,每条专利都标注了IPC分类标签。数据集支持专利分类任务,并可作为研究法国技术发明的科学语料库。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作