Patents Phrase to Phrase Semantic Matching Dataset

Name: Patents Phrase to Phrase Semantic Matching Dataset
Creator: 谷歌公司
Published: 2022-08-02 07:33:30
License: 暂无描述

arXiv2022-08-02 更新2024-06-21 收录

下载链接：

https://www.kaggle.com/datasets/google/google-patent-phrase-similarity-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Patents Phrase to Phrase Semantic Matching Dataset 是由谷歌公司创建的一个专注于专利技术概念的语义匹配数据集。该数据集包含近50,000对经过人工评级的短语对，每对短语都附有一个合作专利分类（CPC）作为上下文。数据集通过提取专利中的关键短语并结合上下文CPC分类来创建，旨在解决短语歧义和对抗性关键词匹配问题。此数据集的应用领域主要是在自然语言处理中，特别是在专利和科学出版物的语义文本相似性测量上，以推动模型在处理技术术语方面的性能提升。

The Patents Phrase to Phrase Semantic Matching Dataset is a semantic matching dataset focused on patent technical concepts, developed by Google. It contains nearly 50,000 manually annotated phrase pairs, each paired with a Cooperative Patent Classification (CPC) code as contextual information. The dataset is constructed by extracting key phrases from patents and combining them with their associated CPC classifications, aiming to resolve phrase ambiguity and adversarial keyword matching challenges. Its primary application scenarios lie in natural language processing, particularly for semantic text similarity measurement in patents and scientific publications, to enhance the performance of models in handling technical terminology.

提供机构：

谷歌公司

创建时间：

2022-08-02

搜集汇总

数据集介绍

构建方式

在语义文本相似性研究领域，现有基准数据集多聚焦于通用语境，而专利与科学文献中的技术概念长期缺乏专门资源。为填补这一空白，Patents Phrase to Phrase Semantic Matching Dataset 的构建始于从专利语料中提取关键短语，如名词短语或功能短语，并筛选出现频次超过100次的条目。随后，从这些短语中随机采样约1000个作为锚点短语，并为每个锚点匹配至多四个随机的合作专利分类（CPC）类别作为上下文。目标短语则通过部分匹配和掩码语言模型两种方法预生成，再经人工评估员在给定CPC上下文中对短语对进行相似性评级，涵盖同义、反义、上下位关系等精细类别，最终形成包含约48,548个评级短语对的数据集。

使用方法

该数据集适用于训练和评估语义相似性模型，尤其在专利和技术文本处理任务中。使用者可按照数据集划分的训练、验证和测试集，构建双塔架构模型，分别对锚点和目标短语进行嵌入表示，并通过余弦距离计算相似性。基准实验表明，像Sentence-BERT这类经过专利数据预训练或针对相似性任务微调的模型表现更优，而通用预训练模型则可能因技术术语的专有性而受限。数据集还可用于研究短语消歧、对抗样本鲁棒性等问题，通过CPC上下文信息提升模型在专业领域的理解能力，推动自然语言处理技术在知识产权与科学文献中的应用进展。

背景与挑战

背景概述

在自然语言处理领域，语义文本相似性（STS）作为衡量文本间语义关联的核心任务，其基准数据集对于模型评估与优化至关重要。然而，现有通用数据集如STS-B、SICK等，往往缺乏针对专利与科学文献中技术术语的专门设计。为填补这一空白，谷歌研究人员Grigor Aslanyan与Ian Wetherbee于2022年推出了专利短语语义匹配数据集，聚焦于技术概念的语境化短语对匹配。该数据集包含近五万条人工标注的短语对，每对均以合作专利分类（CPC）类别作为上下文，旨在解决专利文本中术语多义性、对抗性匹配等独特问题，为技术领域语义相似性研究提供了标准化评估工具，并推动了如Kaggle竞赛等实际应用。

当前挑战

该数据集致力于解决专利与科学文献领域语义相似性评估的挑战，其核心在于技术术语的精确匹配。由于专利文本中大量存在一词多义现象，例如“mouse”可指代动物或计算机设备，传统模型易因语境缺失而产生误判。同时，构建过程面临多重困难：一是数据生成需克服对抗性关键词匹配的干扰，如“container section”与“kitchen container”表面相似却语义无关；二是通过BERT等模型生成目标短语时，需人工标注大量难以区分的负样本，以提升模型区分能力；三是标注过程中需确保评分者对不同语义关系（如同义、反义、上下位关系）的一致性，这对标注质量与数据集可靠性提出了较高要求。

常用场景

经典使用场景

在自然语言处理领域，语义文本相似性评估是核心技术任务之一，而专利短语到短语语义匹配数据集专注于技术术语的语义匹配。该数据集最经典的使用场景是作为基准测试工具，用于评估和比较不同模型在专利文本中短语对相似性判断上的性能。通过提供带有上下文分类的短语对及人工标注的相似性评分，它使得研究者能够系统性地训练和验证模型，特别是在处理技术概念时，有效衡量模型对同义词、反义词、上下位词等复杂语义关系的捕捉能力。

解决学术问题

该数据集解决了语义文本相似性研究中缺乏针对专利和科学文献技术概念的专业基准问题。传统通用数据集如STS-B或SICK难以涵盖技术术语的多义性和对抗性匹配挑战，而本数据集通过引入协同专利分类上下文和细粒度评分类别，如超义词、下义词等，有效支持了短语消歧和硬负样本识别。这不仅提升了模型在技术领域的泛化能力，还推动了自然语言处理在专业文本理解方面的理论进展，为后续研究提供了可靠的数据基础。

实际应用

在实际应用中，专利短语到短语语义匹配数据集被广泛用于增强专利检索和知识管理系统的性能。例如，在知识产权分析中，该数据集帮助开发更精准的语义搜索算法，能够识别技术文档中的相似概念，从而改善专利审查和侵权检测的效率。此外，它还可应用于科学文献的自动摘要和分类，通过理解技术短语的语义关联，支持研究机构和企业优化信息组织与检索流程，提升知识发现的准确性和速度。

数据集最近研究