PatenTEB

Name: PatenTEB
Creator: 法国斯特拉斯堡国立应用科学学院(INSA Strasbourg, France)
Published: 2025-10-25 20:01:46
License: 暂无描述

arXiv2025-10-25 更新2025-10-29 收录

下载链接：

https://github.com/iliass-y/patenteb

下载链接

链接失效反馈

官方服务：

资源简介：

PatenTEB是一个全面的基准数据集，包含了15个任务，涵盖了检索、分类、释义检测和聚类，拥有206万个示例。该数据集采用了领域分层划分、领域特定的硬负样本挖掘以及系统性地涵盖了常规嵌入基准中缺失的非对称片段到文档匹配场景。PatenTEB旨在解决专利文本嵌入中的挑战，包括长文档的依赖处理、非对称匹配场景和跨领域语义理解等问题。

PatenTEB is a comprehensive benchmark dataset encompassing 15 tasks covering retrieval, classification, paraphrase detection, and clustering, with a total of 2.06 million instances. This dataset adopts domain-stratified partitioning, domain-specific hard negative mining, and systematically incorporates asymmetric segment-to-document matching scenarios that are absent from conventional embedding benchmarks. PatenTEB aims to address core challenges in patent text embedding, including handling contextual dependencies in long documents, asymmetric matching scenarios, and cross-domain semantic understanding.

提供机构：

法国斯特拉斯堡国立应用科学学院(INSA Strasbourg, France)

创建时间：

2025-10-25

原始信息汇总

PatenTEB数据集概述

数据集基本信息

名称: PatenTEB (Patent Text Embedding Benchmark)
类型: 专利文本嵌入基准数据集
许可证: CC BY-NC-SA 4.0
数据来源: Lens.org

数据集规模

测试集: 319,320个样本（已发布）
训练集: 1,556,751个样本（计划发布）
验证集: 181,215个样本（计划发布）
总计: 2,057,286个样本

任务分类

分类任务（3个）

class_bloom: 引用时序分类
class_nli_oldnew: 引用方向性分类
class_text2ipc3: IPC3技术分类

聚类任务（2个）

clusters_ext_full_ipc: 基于IPC的聚类
clusters_inventor: 基于发明人的聚类

对称检索任务（3个）

retrieval_IN: 同领域检索（相同IPC3）
retrieval_MIXED: 混合领域检索（部分IPC3重叠）
retrieval_OUT: 跨领域检索（不相交IPC3）

非对称检索任务（5个）

title2full: 标题→全文
problem2full: 问题→全文
problem2solution: 问题→解决方案
effect2full: 效果→全文
effect2substance: 效果→实质内容

复述任务（2个）

para_problem: 问题复述检测
para_solution: 解决方案复述检测

评估指标

分类任务: Macro-F1
聚类任务: V-measure
检索任务: NDCG@10
复述任务: Pearson r

模型性能

总体得分: 0.654（PatenTEB基准）
BigPatentClustering.v2: 0.494 V-measure（新SOTA）
DAPFAM跨领域专利检索: 0.377 NDCG@100

访问方式

HuggingFace数据集: https://huggingface.co/datalyes
论文: https://arxiv.org/abs/2510.22264
模型: https://huggingface.co/datalyes

搜集汇总

数据集介绍

构建方式

在专利信息检索领域，构建高质量基准数据集需兼顾领域代表性与任务多样性。PatenTEB通过从Lens.org获取专利数据，重构简单专利家族作为分析单元，并应用时间覆盖、引用活动等筛选条件，确保数据完整性。采用国际专利分类三级代码进行领域分层，将109个技术领域按80%/10%/10%比例划分训练、验证与测试集，有效防止数据泄露。通过领域感知的硬负例挖掘策略，针对同领域、跨领域及混合领域检索任务分别设计负例选择机制，并构建15项任务覆盖检索、分类、复述与聚类四大类型，总计包含206万标注样本。

特点

专利文本嵌入面临长文档、非对称匹配等独特挑战，PatenTEB通过系统性设计凸显其领域适应性。该数据集涵盖8项检索任务（包括5项非对称场景如标题→全文、问题→解决方案）、3项分类任务（技术领域划分与引用时序分析）、2项复述检测及2项聚类任务，全面反映专利分析工作流需求。其核心特色在于领域分层划分与硬负例挖掘机制，通过控制技术领域关系（同领域、跨领域、混合领域）构建差异化评估场景。非对称检索任务采用确定性片段移除策略，避免词汇重叠导致的虚假匹配，而2.06百万样本规模与多任务结构为模型训练与零样本评估提供坚实基础。

使用方法

针对专利语义理解的实际需求，PatenTEB支持端到端的嵌入模型开发与评估流程。使用者可基于标准化数据格式加载15项任务的训练集（155.7万样本）、验证集（18.1万样本）与测试集（31.9万样本），每项任务配备专用评估指标：检索任务采用NDCG@10，复述任务使用皮尔逊相关系数，分类任务依据宏F1分数，聚类任务则依赖V-measure。模型训练阶段可结合多任务学习框架，同步优化对比学习与分类目标函数，并利用任务特定提示词引导表示学习。评估时需遵循领域分层原则，特别关注跨领域检索的性能表现，同时可通过外部基准（如MTEB BigPatentClustering与DAPFAM）验证模型泛化能力。

背景与挑战

背景概述

专利文本嵌入技术作为知识产权分析的核心工具，在现有技术检索与技术图谱构建中具有重要价值。2025年由法国INSA斯特拉斯堡研究院的Iliass Ayaou与Denis Cavallucci团队推出的PatenTEB基准数据集，针对专利领域特有的技术语言复杂性与文档结构特殊性，构建了涵盖检索、分类、复述检测与聚类四大任务的评估体系。该数据集通过领域分层划分与硬负例挖掘策略，系统解决了传统嵌入模型在专利长文档处理与跨领域语义匹配中的局限性，为专利信息检索领域提供了首个综合性评估框架。

当前挑战

该数据集致力于解决专利文本嵌入领域的两大核心挑战：在领域问题层面，专利文档普遍存在极端长度（常超过1万词）与高度结构化技术论述的复杂性，导致传统嵌入模型难以处理非对称匹配场景（如片段到全文检索）和跨技术领域语义理解；在构建过程中，面临专利家族重构的准确性保障、国际专利分类体系的一致性维护，以及基于引文网络的噪声标签过滤等难题，需通过领域感知的负例采样和泄漏预防机制确保数据质量。

常用场景

经典使用场景

在专利信息检索领域，PatenTEB数据集通过构建15项跨检索、分类、复述和聚类的任务，为专利文本嵌入模型提供了系统评估框架。该数据集特别针对专利文献特有的长文档结构和不对称匹配场景，例如将专利标题或问题陈述与完整技术文档进行语义关联，有效模拟了专利审查员进行现有技术检索时的实际工作流程。其经典应用体现在通过领域分层划分和硬负例挖掘技术，确保模型能够区分高度相似的技术方案，为专利新颖性判断提供可靠依据。

衍生相关工作

基于PatenTEB数据集衍生的经典研究工作主要集中在多任务学习框架优化和领域自适应方法创新。patembed模型家族通过知识蒸馏技术构建了参数量从67M到344M的模型谱系，证明了多任务训练在提升模型泛化能力方面的显著优势。后续研究进一步探索了提示学习在专利文本理解中的应用，通过任务特定的提示前缀引导模型适应不同的下游场景。这些工作不仅巩固了专利嵌入技术的理论基础，还催生了面向特定技术领域的嵌入模型优化方法，推动了领域自然语言处理技术的标准化进程。

数据集最近研究