patent_classification_preference_st

Hugging Face2025-05-26 更新2025-05-27 收录

下载链接：

https://huggingface.co/datasets/withpi/patent_classification_preference_st

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用户对于某些问题的选择和拒绝选项，以及与这些选项相关的各种评分和特征。具体包括选择的选项、拒绝的选项、问题文本、评分、pi_key等字段。训练集和测试集分别包含40000和8000个示例。

创建时间：

2025-05-26

原始信息汇总

数据集概述

基本信息

数据集名称: patent_classification_preference_st
存储位置: https://huggingface.co/datasets/withpi/patent_classification_preference_st
下载大小: 283076533 字节
数据集大小: 1816537734 字节

数据集结构

特征

input: 空值类型
chosen: 字符串类型
rejected: 字符串类型
question: 字符串类型
margin: 浮点数类型 (float64)
pi_key: 字符串类型
pi_score_chosen: 浮点数类型 (float64)
pi_score_rejected: 浮点数类型 (float64)
pi_score_chosen_sfc_q_30750: 浮点数类型 (float64)
pi_score_rejected_sfc_q_30750: 浮点数类型 (float64)
pi_score_chosen_sfc_o_33000: 浮点数类型 (float64)
pi_score_rejected_sfc_o_33000: 浮点数类型 (float64)

数据划分

训练集 (train):
- 样本数量: 40000
- 数据大小: 1524860747 字节
测试集 (test):
- 样本数量: 8000
- 数据大小: 291676987 字节

配置文件

默认配置 (default):
- 训练集路径: data/train-*
- 测试集路径: data/test-*

搜集汇总

数据集介绍

构建方式

在专利分类领域，高质量的数据集对模型训练至关重要。patent_classification_preference_st数据集通过精心设计的构建流程，收录了48,000条专利分类样本，其中训练集40,000条，测试集8,000条。每条样本包含输入文本、优选分类结果、次选分类结果及相应的评分指标，构建过程中特别注重分类偏好的差异性表达，通过多维评分体系确保数据质量。

特点

该数据集在专利分类任务中展现出独特价值，其核心特征体现在多维评分指标的设置上。除基础分类结果外，每条记录包含原始评分、SFC_Q_30750和SFC_O_33000三种评分体系的对比数据，这种设计为研究不同评分标准下的分类偏好提供了丰富素材。数据字段的精细划分使得研究者能够深入分析专利分类决策的细微差别。

使用方法

针对专利分类模型的优化需求，该数据集支持多种应用场景。研究者可将'chosen'和'rejected'字段作为对比学习的正负样本，利用'margin'字段衡量分类偏好强度。测试集的独立设置便于模型性能评估，而丰富的评分指标则为超参数调优提供了可靠依据。数据加载时需注意不同评分体系的对应关系，确保实验设计的严谨性。

背景与挑战

背景概述

专利分类偏好数据集（patent_classification_preference_st）由专业研究团队构建，旨在解决专利文本分类中的偏好学习问题。该数据集通过对比选择（chosen）与拒绝（rejected）的专利文本对，结合多维评分指标（如pi_score_chosen、pi_score_rejected等），为专利分类模型的偏好优化提供了量化依据。其核心研究问题聚焦于如何通过偏好学习提升专利自动分类的准确性与可解释性，对知识产权领域的自然语言处理技术发展具有显著推动作用。

当前挑战

该数据集面临的主要挑战体现在两方面：领域问题上，专利文本具有高度专业性与术语密集性，传统分类模型难以准确捕捉其语义偏好；构建过程中，需平衡不同评分指标（如SFC_Q与SFC_O）的权重，确保偏好标注的客观性。此外，数据规模与质量的控制（如40,000训练样本的标注一致性）也是构建过程中的关键难点。

常用场景

经典使用场景

在专利文本分析领域，patent_classification_preference_st数据集为研究者提供了丰富的专利分类偏好数据。该数据集通过对比选择的专利文本与被拒绝的专利文本，揭示了专利审查过程中的偏好模式。研究者可以借此分析专利审查标准，理解不同技术领域的专利审批倾向，从而优化专利申请策略。

解决学术问题

该数据集有效解决了专利文本分类中的偏好建模问题。通过提供详细的评分差异和边际数据，研究者能够深入分析专利审查中的主观因素，量化不同特征对审批结果的影响。这对于构建更准确的专利通过率预测模型具有重要意义，同时也为专利政策研究提供了数据支持。

衍生相关工作

基于该数据集，研究者已开发出多种专利审批预测模型。这些工作包括基于深度学习的专利通过率预测系统、专利文本质量评估工具，以及审查偏好可视化分析平台。部分研究进一步探索了跨技术领域的审批标准差异，为专利制度的完善提供了实证依据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集