patent_classification_question_preference

Hugging Face2025-05-26 更新2025-05-27 收录

下载链接：

https://huggingface.co/datasets/withpi/patent_classification_question_preference

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含用户对问题选择的响应数据集。它具有多个特征，包括输入、用户选择的题目、被拒绝的题目、选择的题目和被拒绝的题目的pi分数等。数据集分为训练集和测试集，适用于机器学习模型的训练和评估。

创建时间：

2025-05-26

原始信息汇总

数据集概述

基本信息

数据集名称: patent_classification_question_preference
数据集地址: https://huggingface.co/datasets/withpi/patent_classification_question_preference
下载大小: 48,763,394 字节
数据集大小: 917,122,421 字节

数据集结构

特征:
- input: 空值类型
- response: 字符串类型
- chosen_question: 字符串类型
- rejected_question: 字符串类型
- margin: 浮点类型
- pi_key: 字符串类型
- pi_score_chosen: 浮点类型
- pi_score_rejected: 浮点类型
- pi_score_chosen_sfc_q_30750: 浮点类型
- pi_score_rejected_sfc_q_30750: 浮点类型
- pi_score_chosen_sfc_o_33000: 浮点类型
- pi_score_rejected_sfc_o_33000: 浮点类型

数据划分

训练集:
- 样本数量: 40,000
- 数据大小: 765,602,037 字节
测试集:
- 样本数量: 8,000
- 数据大小: 151,520,384 字节

配置文件

默认配置:
- 训练集路径: data/train-*
- 测试集路径: data/test-*

搜集汇总

数据集介绍

构建方式

在专利分类领域，高质量的问答数据对模型训练至关重要。该数据集通过精心设计的对比选择机制构建，收录了40,000条训练样本和8,000条测试样本。每条数据包含输入文本、响应内容以及经过专家评估的优选问题和劣质问题对，同时标注了二者在多个评估维度上的得分差异，为模型学习提供了明确的优化方向。数据采集过程严格遵循专业标准，确保样本的权威性和代表性。

特点

该数据集最显著的特点在于其多维度的评分体系，不仅包含基础的选择偏好标注，还提供了三种不同参数配置下的概率评分指标。这种设计使研究者能够深入分析模型决策过程中的细微差异。数据字段设置科学合理，包含输入输出文本、选择结果以及各类评分指标，为研究专利问答系统的性能优化提供了丰富的分析维度。样本规模适中且划分合理，兼顾了训练需求和评估需求。

使用方法

该数据集特别适合用于专利问答系统的偏好学习研究。使用者可基于chosen_question和rejected_question字段构建对比学习任务，利用margin字段优化损失函数。各类pi_score指标为模型性能分析提供了量化依据，研究者可通过比较不同评分维度下的表现差异，深入理解模型行为。数据已预先划分为训练集和测试集，便于直接应用于模型训练和评估流程。

背景与挑战

背景概述

专利分类与问题偏好数据集（patent_classification_question_preference）由专业研究团队构建，旨在探索专利文本分类与问题生成中的偏好建模。该数据集聚焦于专利领域的自然语言处理任务，通过记录不同问题生成模型的输出及其偏好评分，为专利文本的自动化处理提供重要数据支持。其核心研究问题在于如何量化评估生成问题的质量，并基于专家偏好优化生成模型。该数据集的构建标志着专利文本分析从单一分类任务向复杂语义理解与生成任务的重要转变，对知识产权领域的智能化发展具有显著推动作用。

当前挑战

该数据集面临的挑战主要体现在两方面：领域问题的挑战方面，专利文本具有高度专业性与复杂性，如何准确建模专家对生成问题的偏好成为关键难题，需解决语义精确度与领域适应性之间的平衡问题；构建过程的挑战方面，数据标注依赖领域专家参与，标注成本高昂且一致性难以保证，同时多维度评分体系（如pi_score等）的融合与标准化处理也增加了数据处理的复杂度。

常用场景

经典使用场景

在专利文本分析领域，patent_classification_question_preference数据集为研究者提供了丰富的标注数据，用于训练和评估专利分类模型。该数据集通过对比不同问题的选择偏好，帮助模型理解专利文本中的关键信息，从而提升分类的准确性。经典使用场景包括专利自动分类、技术领域划分以及专利价值评估等任务。

衍生相关工作

基于该数据集，研究者们开发了多种专利分类和检索算法，例如基于深度学习的专利文本分类模型和专利相似性计算框架。这些工作进一步拓展了数据集的应用范围，并在专利分析领域产生了广泛影响。

数据集最近研究