five

Patent-CR

收藏
arXiv2024-12-04 更新2024-12-06 收录
下载链接:
https://github.com/scylj1/Patent-CR
下载链接
链接失效反馈
官方服务:
资源简介:
Patent-CR是由剑桥大学创建的专利声明修订任务的首个数据集,包含22,606对初始申请和最终授权的专利声明。数据集内容涵盖了专利声明的修订过程,包括内容修正、术语一致性、语言精确性、简洁性和重新编号等五个主要修订类型。数据集的创建过程包括从Google Patents和欧洲专利局获取数据,并通过API提取和整理。该数据集主要应用于人工智能和自然语言处理领域,旨在解决专利声明修订中的复杂性和法律准确性问题。

Patent-CR is the first dataset for patent claim revision tasks, developed by the University of Cambridge. It contains 22,606 pairs of initial application and final granted patent claims. The dataset covers the entire revision process of patent claims, including five core revision types: content correction, terminology consistency, linguistic accuracy, conciseness, and renumbering. The dataset was built by collecting data from Google Patents and the European Patent Office, followed by API-based extraction and curation. It is primarily applied in the fields of artificial intelligence and natural language processing, with the goal of addressing the complexity and legal accuracy issues encountered during patent claim revision.
提供机构:
剑桥大学
创建时间:
2024-12-04
搜集汇总
数据集介绍
main_image_url
构建方式
Patent-CR数据集通过收集和整理被专利审查员拒绝的初始专利申请以及最终授权版本,构建了首个用于专利权利要求修订任务的英语数据集。该数据集包括22,606对申请和授权的权利要求,源自同一专利。构建过程中,首先通过Google Patents的高级搜索选项筛选出已发布和授权的专利,然后利用欧洲专利局的开放专利服务(OPS)API获取申请和授权版本的权利要求。最后,将数据整理成易于阅读的格式,并进行详细的手动检查以确保数据集的质量。
特点
Patent-CR数据集的独特之处在于其专注于专利权利要求的修订,这一任务不仅涉及语法和连贯性的改进,还需确保权利要求符合严格的法律标准,包括范围的清晰性、技术准确性、语言精确性和法律稳健性。数据集中的修订类型包括内容修正、术语一致性、语言精确性、简洁性和重新编号,这些修订类型反映了专利权利要求修订的复杂性和专业性。
使用方法
Patent-CR数据集可用于评估和训练大型语言模型(LLMs)在专利权利要求修订任务中的表现。研究者可以通过该数据集进行模型训练和微调,以提高模型在专利领域的文本修订能力。此外,数据集还可用于开发新的自动化评估指标,以更好地与人类专家的评估结果对齐。通过对比不同模型的修订结果,研究者可以深入理解模型在处理专利文本时的优势和局限,从而推动专利权利要求修订技术的进步。
背景与挑战
背景概述
专利声明修订任务(Patent Claim Revision)是专利申请过程中的关键环节,旨在确保专利声明符合严格的法律标准。Patent-CR数据集由剑桥大学的Lekang Jiang、Pascal A Scherz和Stephan Goetz创建,是首个针对英语专利声明修订任务的数据集。该数据集包含了专利审查员拒绝的初始专利申请和最终授权版本,涵盖了从内容修正、术语一致性到语言精确性等多个方面的修订。通过评估多种大型语言模型(LLMs),研究团队发现,尽管GPT-4在测试中表现最佳,但仍需进一步修订以达到审查标准。该数据集的发布为专利声明修订领域的进一步研究提供了宝贵的资源。
当前挑战
Patent-CR数据集面临的挑战主要体现在两个方面。首先,专利声明修订任务不同于一般的文本修订,其核心在于确保声明符合法律的严格标准,包括范围的清晰性、技术准确性、语言精确性和法律稳健性。这些要求使得修订过程复杂且具有高度专业性。其次,构建过程中遇到的挑战包括数据收集的难度,特别是从欧洲专利局获取高质量的专利文本数据,以及确保数据集的多样性和代表性。此外,现有的大型语言模型在处理专利文本时,往往难以捕捉其特有的语言特征和法律术语,导致修订结果偏离目标。
常用场景
经典使用场景
Patent-CR数据集在专利申请修订任务中展现了其经典应用场景。该数据集包含了被专利审查员拒绝的初始专利申请和最终被授予的版本,为研究专利声明修订提供了宝贵的资源。通过对比初始和修订后的专利声明,研究人员可以深入分析修订过程中的关键变化,如内容修正、术语一致性、语言精确性、简洁性及编号调整等。这些分析有助于理解专利声明修订的复杂性,并为自动化修订工具的开发提供理论支持。
解决学术问题
Patent-CR数据集解决了专利声明修订领域的多个学术研究问题。首先,它填补了该领域数据集的空白,为研究人员提供了丰富的实验材料。其次,通过对比初始和修订后的专利声明,研究人员可以深入探讨专利声明修订的标准和原则,如清晰性、技术准确性、语言精确性和法律稳健性等。此外,该数据集还揭示了大型语言模型在专利声明修订中的局限性,为改进这些模型提供了方向。
衍生相关工作
Patent-CR数据集的发布催生了多项相关研究工作。首先,研究人员利用该数据集开发了多种专利声明修订模型,如基于GPT-4的修订模型和法律领域特定的修订模型。其次,该数据集还促进了自动化评估方法的研究,特别是基于GPT-4的评估方法,这些方法在评估专利声明修订质量方面表现出色。此外,Patent-CR数据集还激发了对专利声明修订任务的深入探讨,推动了该领域的理论和实践发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作