Indian Patent Dataset
收藏github2024-04-28 更新2024-05-31 收录
下载链接:
https://github.com/aryansingh0909/Indian-Patent-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
印度专利数据集提供了2010年、2011年和2019年在印度提交的所有专利申请的详细信息,包括申请号、标题、申请日期、发明人和申请人信息、专利状态等。该数据集旨在为研究人员、政策制定者、企业和学术界提供有关印度专利景观的宝贵见解,支持研究和分析、政策决策、商业智能、法律合规性和学术研究。
The Indian Patent Dataset provides detailed information on all patent applications filed in India in the years 2010, 2011, and 2019. This includes application numbers, titles, filing dates, inventor and applicant information, and patent statuses. The dataset is designed to offer valuable insights into the Indian patent landscape for researchers, policymakers, businesses, and academia, supporting research and analysis, policy decision-making, business intelligence, legal compliance, and academic studies.
创建时间:
2024-04-27
原始信息汇总
数据集概述
名称:Indian Patent Dataset
描述:该数据集包含了2010年、2011年和2019年在印度提交的所有专利的详细信息。
覆盖年份:2010年、2011年、2019年
数据集内容
数据组成:
- Application Number:专利申请的唯一标识符。
- Title:专利申请的标题。
- Application Date:专利申请的提交日期。
- Status:专利申请的当前状态。
- Publication Number:专利申请的出版编号。
- Publication Date (U/S 11A):根据第11A条的出版日期。
- Publication Type:出版类型。
- Application Filing Date:专利申请的提交日期。
- Priority Number:专利申请的优先编号。
- Priority Country:优先国家。
- Priority Date:专利申请的优先日期。
- Field Of Invention:专利申请的发明领域。
- Classification (IPC):国际专利分类。
- Inventor Information:发明者信息。
- Applicant Information:申请人信息。
- Application Type:专利申请类型。
- E-mail (As Per Record):根据记录的电子邮件。
- Additional E-mail (As Per Record):根据记录的额外电子邮件。
- E-mail (Updated Online):在线更新的电子邮件。
- Request for Examination Date:审查请求日期。
- First Examination Report Date:首次审查报告日期。
- Date Of Certificate Issue:证书发放日期。
- Post Grant Journal Date:授权后期刊日期。
- Reply to FER Date:对首次审查报告的回复日期。
- PCT International Application Number:PCT国际申请号。
- PCT International Filing Date:PCT国际提交日期。
- Application Status:专利申请状态。
数据收集过程
收集方法:数据通过自动化工具(如Selenium和Python)直接从Indian Patent Advanced Search System抓取。
数据预处理
预处理步骤:包括清理字符串和移除不必要的符号,以确保数据质量和一致性。
数据集用途
- 研究与分析
- 政策制定
- 商业智能
- 法律与监管合规
- 学术研究
数据集维护
更新计划:数据集将定期更新,以纠正标签错误、添加新实例或删除必要实例。
联系方式
联系人:Aryan Singh
电子邮件:aryansinghmain09@gmail.com
搜集汇总
数据集介绍

构建方式
印度专利数据集的构建基于对印度专利高级搜索系统的自动化抓取技术,利用Selenium和Python等工具,从系统中提取了2010年、2011年和2019年提交的专利申请信息。每条数据实例均包含专利申请的详细信息,如申请号、标题、申请日期、发明人和申请人信息、专利状态等。数据集的构建过程通过提供的scraping_main.py脚本实现,确保了数据的全面性和准确性。
特点
该数据集的显著特点在于其全面性和详细性,涵盖了印度专利申请的多个关键维度,包括申请号、标题、申请日期、专利状态、国际专利分类等。此外,数据集还包含了发明人和申请人的详细信息,以及与专利相关的多种日期和状态信息,为深入分析印度专利生态系统提供了丰富的数据支持。
使用方法
使用该数据集时,用户需先克隆GitHub仓库并设置虚拟环境,随后通过运行提供的Python脚本进行数据抓取。数据集可用于多种场景,包括研究分析、政策制定、商业智能、法律合规以及学术研究。用户可根据需求选择是否跳过某些耗时的状态检查步骤,并通过无头模式运行脚本以提高效率。
背景与挑战
背景概述
印度专利数据集(Indian Patent Dataset)是一个全面的数据集,涵盖了2010年、2011年和2019年在印度提交的所有专利申请。该数据集由Aryan Singh创建,旨在为研究人员、政策制定者、企业、法律专业人士和学术界提供关于印度专利格局的宝贵见解。通过详细记录每项专利申请的相关信息,如申请号、标题、申请日期、发明人和申请人信息、专利状态等,该数据集为研究创新和技术转移、支持政策决策、促进商业智能以及确保法律合规性提供了重要的数据基础。
当前挑战
印度专利数据集的构建过程中面临了多个挑战。首先,数据收集是通过自动化工具从印度专利高级搜索系统中抓取的,这要求开发高效的抓取脚本并处理可能的反爬虫机制。其次,数据预处理阶段需要清理和标准化字符串,以确保数据的一致性和质量。此外,由于专利数据的复杂性和多样性,确保数据的完整性和准确性也是一个重要的挑战。最后,随着时间的推移,数据集需要定期更新以反映最新的专利申请和状态变化,这要求持续的维护和更新机制。
常用场景
经典使用场景
印度专利数据集的经典使用场景主要集中在对印度专利申请的全面分析与研究。研究者可以利用该数据集深入探讨专利申请的时间分布、技术领域的创新趋势以及不同申请者的专利策略。例如,通过分析2010年、2011年和2019年的专利数据,研究者能够识别出特定技术领域的专利增长模式,进而为政策制定和技术预测提供有力支持。
衍生相关工作
基于印度专利数据集,衍生出了多项经典研究工作。例如,有研究利用该数据集分析了印度在特定技术领域的专利申请趋势,揭示了该国在某些高科技领域的创新潜力。此外,还有研究探讨了不同申请者在专利申请中的策略差异,为理解企业创新行为提供了新的视角。这些研究不仅丰富了知识产权领域的理论体系,还为实际应用提供了有力的数据支持。
数据集最近研究
最新研究方向
近年来,印度专利数据集在知识产权领域引起了广泛关注,尤其是在技术创新与政策制定的交叉研究中。该数据集通过提供详细的专利申请信息,如申请号、发明领域、申请人信息等,为研究者提供了深入分析印度创新生态系统的宝贵资源。前沿研究方向包括利用机器学习技术对专利数据进行分类和预测,以揭示技术趋势和市场动态;同时,该数据集也被用于评估知识产权政策的有效性,特别是在支持中小企业创新和国际技术转移方面。此外,随着全球对知识产权保护的日益重视,印度专利数据集的研究成果对其他发展中国家也具有重要的借鉴意义。
以上内容由遇见数据集搜集并总结生成



