mpi-inno-comp/paecter_dataset

Name: mpi-inno-comp/paecter_dataset
Creator: mpi-inno-comp
Published: 2024-07-02 20:08:02
License: 暂无描述

Hugging Face2024-07-02 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/mpi-inno-comp/paecter_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

PaECTER数据集包含用于训练、验证和测试PaECTER和PAT SPECTER模型的专利公开号。这些公开号来自EPO的PATSTAT数据库（2023年春季版）。数据集使用PATSTAT中提供的专利标题和摘要进行训练和其他用途。训练和验证数据集共包含300,000个EPO/PCT专利作为焦点（查询）专利，每个焦点专利与5个三元组相关联，每个三元组包括一个正引用和一个负引用。训练集包含255,000个焦点专利，共1,275,000行数据；验证集包含45,000个焦点专利，共225,000行数据。测试数据集包含1000行数据，每行代表一个焦点专利、其5个正引用和25个随机选择的不相关专利作为负引用。

The PaECTER dataset contains publication numbers of patents used to train, validate, and test the PaECTER and PAT SPECTER models. These publication numbers were taken from the EPOs PATSTAT database (2023 Spring version). The dataset uses the titles and abstracts of these patents as provided in PATSTAT for training and other purposes. The combined training and validation dataset comprises 300,000 EPO/PCT patents as focal (query) patents, each associated with 5 triplets, each including one positive and one negative citation. The training set consists of 255,000 focal patents, resulting in 1,275,000 rows, while the validation set comprises 45,000 focal patents, resulting in 225,000 rows. The test dataset contains 1000 rows, each representing a focal patent, its 5 positive citations, and 25 randomly selected unrelated patents as negative citations.

提供机构：

mpi-inno-comp

原始信息汇总

PaECTER Dataset

概述

许可证: Apache 2.0
任务类别:
- 句子相似度
- 文本检索
语言: 英语
数据集名称: PaECTER Dataset

数据集配置

配置: train_validation_set

特征:
- query: 字符串
- pos: 字符串
- neg: 字符串
分割:
- train: 1,275,000 条数据
- validation: 225,000 条数据
数据文件:
- train: train_validation_set/training.jsonl
- validation: train_validation_set/validation.jsonl
默认配置: 是

配置: testset

特征:
- query: 字符串
- pos: 字符串列表
- neg: 字符串列表
分割:
- test: 1,000 条数据
数据文件:
- test: testset/test.jsonl

数据集描述

训练和验证集: 包含 300,000 个 EPO/PCT 专利作为查询专利。每个查询专利关联 5 个三元组，每个三元组包含一个正向引用和一个负向引用。
- 训练集: 包含 255,000 个查询专利，共 1,275,000 行数据。
- 验证集: 包含 45,000 个查询专利，共 225,000 行数据。
测试集: 包含 1,000 行数据。每行代表一个查询专利，其 5 个正向引用和 25 个随机选择的无关专利作为负向引用。

5,000+

优质数据集

54 个

任务类型

进入经典数据集