IPBench
收藏arXiv2025-04-22 更新2025-04-24 收录
下载链接:
https://IPBench.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
IPBench是一个全面的双语知识产权任务基准,由中国科学院深圳先进技术研究院、大连理工大学、深圳技术大学和新南威尔士大学共同创建。该数据集包含10374个数据点,涵盖8种知识产权机制和20个任务,旨在评估大型语言模型在现实世界知识产权应用中的知识和能力。数据集覆盖了知识产权的技术和法律两个方面,适用于理解和分析知识产权文本,解决知识产权领域的问题。
提供机构:
中国科学院深圳先进技术研究院, 大连理工大学, 深圳技术大学, 新南威尔士大学
创建时间:
2025-04-22
搜集汇总
数据集介绍

构建方式
IPBench数据集的构建依托于权威知识产权机构公开数据与专家深度标注,涵盖美国专利商标局和中国国家知识产权管理局的专利文献,以及公开司法案例库。采用多阶段质量控制流程,由21名知识产权专业背景的标注者在4位专利代理人监督下完成标注,并通过角色轮换审查和BGE-M3嵌入模型去重确保数据精确性。最终形成涵盖8类知识产权机制、20项任务的10,374条双语数据,每条数据平均经过三轮交叉验证,严格遵循现实知识产权应用场景的法律与技术框架。
使用方法
使用IPBench时应采用分层评估策略:对于选择题任务采用准确率指标,IPC/CPC分类任务采用精确匹配度评估,生成类任务则结合BLEU、ROUGE-L等自动指标与LLMScore人工评估体系。评估需区分零样本、少样本和思维链三种提示设置,其中长文本任务(如专利审查)需配置16K-32K的上下文窗口。建议同步进行中英文子集的性能对比分析,并重点关注生成任务中传统指标与人工评估的一致性校验,以全面衡量模型在真实知识产权场景下的应用潜力。
背景与挑战
背景概述
IPBench作为首个全面知识产权领域基准测试数据集,由中国科学院深圳先进技术研究院与大连理工大学联合团队于2025年创建。该数据集聚焦大型语言模型在知识产权领域的知识与能力评估,涵盖专利、商标、版权等八大知识产权机制,包含10,374个双语数据点及20项分层任务。其创新性体现在基于Webb知识深度理论构建的四层任务分类体系——信息处理、逻辑推理、判别评估与创造性生成,突破了传统专利数据集的局限性,为AI在知识产权实务应用提供了重要评估框架。
当前挑战
IPBench面临双重挑战:领域问题层面需解决知识产权文本特有的技术-法律双重属性带来的复杂语义理解难题,包括法律条款的精确记忆、技术特征的跨语言对齐,以及侵权判定等需要多步推理的复合型任务;构建过程中遭遇标注瓶颈,因涉及中美两国专业法律条文和专利分类体系,需21名知识产权专业背景的标注人员耗时完成跨语言数据对齐,并采用BGE-M3嵌入模型过滤重复数据以确保质量。当前最佳模型仅达75.8%准确率,尤其在专利IPC/CPC精确分类任务中表现欠佳,暴露出现有模型对细粒度技术领域理解的不足。
常用场景
经典使用场景
IPBench作为首个全面覆盖知识产权领域的双语基准测试,其经典使用场景主要聚焦于评估大语言模型在真实世界知识产权应用中的综合能力。该数据集通过20项任务系统检验模型在专利分类、侵权判定、法律条款记忆等场景下的表现,尤其在专利审查自动化、技术方案生成等高频需求场景中具有重要参考价值。其双语特性支持中英文语境下的跨法域能力评估,为模型在全球化知识产权服务中的落地提供标准化测试框架。
解决学术问题
IPBench有效解决了知识产权领域长期缺乏综合性评估体系的学术难题,填补了现有基准仅关注专利文本而忽略技术-法律双维度的研究空白。该数据集通过构建基于Webb知识深度理论的四层次任务分类体系,首次系统评估模型在信息处理、逻辑推理、判别评估和创造性生成等方面的能力,为量化模型在复杂知识产权任务中的表现提供科学依据。其构建的10,374个高质量数据点显著提升了学术研究中对模型领域知识掌握程度的可测量性,推动了垂直领域大模型评估方法论的发展。
实际应用
在实际应用层面,IPBench为知识产权行业的智能化转型提供关键支撑。其评估体系可直接应用于专利代理机构的自动化文档处理、企业知识产权管理系统的智能检索与风险预警、司法系统的侵权判定辅助等场景。数据集涵盖的专利价值评估、权利归属分析等任务能够助力金融机构的知识产权质押融资风险评估,而设计规避方案生成等功能则为研发部门提供创新路径参考。该基准的推广使用将显著提升知识产权服务行业的效率与准确性,降低专业人力成本。
数据集最近研究
最新研究方向
IPBench作为首个全面覆盖知识产权领域的技术-法律双维度评测基准,近期研究聚焦于大语言模型在复杂IP任务中的性能边界与领域适应性。前沿探索主要围绕多机制IP任务分类体系的构建,涵盖专利、商标、版权等8类知识产权形态,通过20项任务系统评估模型在信息处理、逻辑推理、判别评估和创造性生成四个认知层级的表现。热点研究揭示闭源通用模型在IP任务上显著优于领域专用模型,其中DeepSeek-V3以75.8%的准确率居首,但整体性能仍存在较大提升空间。当前研究重点包括:跨语言法律框架适应性分析、生成式任务的细粒度自动评估方法LLMScore开发,以及针对专利分类、侵权判定等技术-法律交叉任务的专项优化。该基准推动了IP领域大模型从单纯文本处理向具备专业推理能力的演进,对提升知识产权服务的智能化水平具有重要实践意义。
相关研究论文
- 1IPBench: Benchmarking the Knowledge of Large Language Models in Intellectual Property中国科学院深圳先进技术研究院, 大连理工大学, 深圳技术大学, 新南威尔士大学 · 2025年
以上内容由遇见数据集搜集并总结生成



