pqai/PoC

Name: pqai/PoC
Creator: pqai
Published: 2023-05-11 10:48:23
License: 暂无描述

Hugging Face2023-05-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/pqai/PoC

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit --- # PoC (Patents with One Citation) dataset This dataset is useful for training or evaluating models that predict patent-to-patent similarity, such as those used for patent searching. It was developed and used for the training of an ML model that powers the [PQAI](https://search.projectpq.ai/) search engine. ## Details The dataset contains 90,013 samples. Each sample contains: - a subject patent (`sp`) - its only citation (`cit`) - its CPC code (`cpc`) - a list of 10 patents (`sims`) that are similar to `sp` (in that they share the CPC code) and published before `sp` Every line of the dataset is a JSON parsable string (`.jsonl` format), which upon parsing given an array of this format: ``` [pn, cit, cpc, [...sims]] ``` ## Task Given the subject patent `sp` the task is to assign a similarity score to each patent `[cit, ...sims]`. Ideally, the score should be maximum for `cit`. ## Metrics It's a ranking task, so the following metrics make the most sense: - DCG/NDCG - Accuracy

--- 许可证：MIT许可证 --- # PoC（单引用专利，Patents with One Citation）数据集本数据集可用于训练或评估专利间相似度预测模型，例如应用于专利检索场景的相关模型。该数据集由驱动[PQAI](https://search.projectpq.ai/)搜索引擎的机器学习模型开发，并用于该模型的训练。 ## 数据集详情本数据集共包含90013条样本。每条样本包含以下内容： - 目标专利（subject patent，缩写`sp`） - 其唯一引用专利（缩写`cit`） - 其CPC分类号（缩写`cpc`） - 10篇与`sp`相似（共享CPC分类号）且发表时间早于`sp`的专利列表（`sims`）数据集的每一行均为可解析为JSON格式的字符串（`.jsonl`格式），解析后将得到符合以下格式的数组： [pn, cit, cpc, [...sims]] ## 任务要求给定目标专利`sp`，需为每篇专利`[cit, ...sims]`分配相似度评分。理想情况下，`cit`的评分应最高。 ## 评估指标本任务属于排序任务，因此以下评估指标最为适用： - 折损累积增益（Discounted Cumulative Gain，简称DCG）/归一化折损累积增益（Normalized Discounted Cumulative Gain，简称NDCG） - 准确率（Accuracy）

提供机构：

pqai

原始信息汇总

PoC (Patents with One Citation) 数据集概述

数据集描述

用途：用于训练或评估预测专利相似性的模型，如专利搜索中使用的模型。
开发背景：为PQAI搜索引擎的ML模型训练而开发。

数据集详情

样本数量：90,013个样本。
样本内容：
- 主题专利 (sp)
- 其唯一引用 (cit)
- 其CPC代码 (cpc)
- 10个与sp共享CPC代码且发布时间早于sp的相似专利列表 (sims)
数据格式：每行数据为JSON可解析字符串（.jsonl格式），解析后格式为：

[pn, cit, cpc, [...sims]]

任务

任务描述：给定主题专利sp，为每个专利[cit, ...sims]分配相似度分数。理想情况下，cit应获得最高分数。

评估指标

适用指标：
- DCG/NDCG
- 准确率

搜集汇总

数据集介绍

构建方式

PoC数据集的构建，基于专利间的引用关系，旨在为机器学习模型提供训练与评估的基准。该数据集收集了90013个样本，每个样本包括一个主题专利、其唯一的引用专利、对应的CPC分类代码，以及10个与主题专利具有相同CPC分类代码并先于其发布的相似专利。数据集以JSON可解析的字符串形式存储，便于机器学习模型的处理与解析。

使用方法

使用PoC数据集时，研究者需根据主题专利对每个样本中的专利列表进行相似度评分。评分任务旨在让模型能够区分引用专利与其他相似专利，使得引用专利的评分最高。评估模型性能时，可使用DCG和NDCG等排名指标，以确保模型在专利检索任务中的有效性和准确性。

背景与挑战

背景概述

PoC数据集，全称为Patents with One Citation，是一项针对专利文献领域的专业数据集。该数据集的创建旨在为机器学习模型提供训练及评估资源，以预测专利之间的相似性，进而优化专利搜索系统。该数据集由PQAI机构研发，并为其搜索引擎提供核心训练支持。自发布以来，PoC数据集以其独特的构建方式和丰富的专利信息，为专利检索、机器学习等领域的研究提供了重要资源，对提升专利搜索效率和相关算法研究具有显著影响。

当前挑战

PoC数据集在构建和应用过程中面临诸多挑战。首先，如何精确地识别并匹配专利间的相似性成为一大难题，尤其是在保证引用专利与主体专利的相关性的同时。其次，构建过程中，数据集的多样性和规模性也提出了挑战，要求在保证数据质量的前提下，涵盖尽可能多的专利样本。此外，针对专利分类代码（CPC）的匹配和相似专利的筛选，需要高度精确的算法支持，以确保评估指标如DCG/NDCG和Accuracy的准确性和有效性。

常用场景

经典使用场景

在知识图谱构建与专利检索领域中，pqai/PoC数据集以其独特的样本结构，成为了预测专利之间相似度的研究利器。该数据集被广泛用于训练或评估机器学习模型，旨在通过给定一个主题专利，对其唯一的引用专利及其他相似专利进行相似度评分，从而优化专利搜索系统的响应效果。

解决学术问题

该数据集解决了传统专利检索中存在的准确性不足和效率低下的问题。通过提供具有明确引用关系的专利样本，研究者能够构建出更为精准的专利相似度预测模型，这对于提升专利检索系统的相关性和检索速度具有重要的学术价值和实际意义。

实际应用

在实际应用中，pqai/PoC数据集的应用场景广泛，它不仅能够助力于专利数据库的构建，还能用于企业内部的专利分析和竞争情报研究。通过该数据集训练的模型，可以有效地辅助专利律师、研究人员和企业决策者在专利挖掘、侵权分析和专利布局等方面做出更加科学的决策。

数据集最近研究