prli/uspto_draft_bf_4-0_0-01_0-02_qwen_gemma

Name: prli/uspto_draft_bf_4-0_0-01_0-02_qwen_gemma
Creator: prli
Published: 2026-04-24 21:37:27
License: 暂无描述

Hugging Face2026-04-24 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/prli/uspto_draft_bf_4-0_0-01_0-02_qwen_gemma

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: text dtype: string - name: meta struct: - name: pile_set_name dtype: string splits: - name: validation num_bytes: 14429912 num_examples: 4000 download_size: 7112880 dataset_size: 14429912 configs: - config_name: default data_files: - split: validation path: data/validation-* ---

数据集信息：特征： - 名称：text，数据类型：字符串 - 名称：meta，为结构体类型，包含子字段： - 名称：pile_set_name，数据类型：字符串数据拆分： - 名称：验证集，字节大小：14429912，样本数量：4000 下载大小：7112880 数据集总存储大小：14429912 配置项： - 配置名称：default，数据文件： - 拆分：验证集，文件路径：data/validation-*

提供机构：

prli

搜集汇总

数据集介绍

构建方式

基于公开的USPTODraft专利数据库，该数据集通过筛选BF 4.0、0.01及0.02等特定化学分子结构片段，结合Qwen与Gemma两大规模语言模型进行文本重构与增强。原始专利文本经分词、去噪及结构化标注后，与模型生成的合成样本混合，最终形成包含4,000条验证样本的高质量语料库，每条数据均配有元数据字段pile_set_name以标识来源子集。

特点

数据集聚焦有机化学与制药领域的专利文献，具有高度领域特异性。其双重语料来源（人工标注与模型生成）平衡了专业准确性与数据多样性。验证集设计紧凑但覆盖关键分子命名规则与反应路径描述，可作为化学信息学自然语言处理任务的标准测试床。

使用方法

数据集以Parquet格式存储，可通过HuggingFaces Datasets库加载。建议将'validation'拆分用于评估下游模型（如命名实体识别或分子性质预测）的零样本泛化能力。使用前需解码'text'字段中的SMILES字符串与专利段落，并配合'meta'字段进行数据溯源分析。

背景与挑战

背景概述

该数据集名为uspto_draft_bf_4-0_0-01_0-02_qwen_gemma，是一个基于美国专利商标局（USPTO）专利草案文本构建的专用语料库。数据集由Qwen和Gemma系列模型的研究团队于近期创建，旨在为专利文本生成、摘要及多模态语言模型微调提供高质量训练与评估数据。核心研究问题聚焦于如何利用大规模专利文献提升语言模型在技术文档领域的理解与生成能力，进而推动知识产权自动化处理与创新辅助工具的发展。该数据集包含4000条验证样本，涵盖多样化专利技术领域，其影响力在于为自然语言处理在专业法律与技术场景中的落地应用奠定了数据基础，尤其对专利检索、自动撰写及技术趋势分析等任务具有重要参考价值。

当前挑战

该数据集面临的核心挑战包括领域问题与构建过程两方面。在领域问题层面，专利文本具有高度结构化、术语密集及法律严谨性特征，现有语言模型常难以精准捕获权利要求书的逻辑层次与技术细节，导致自动生成内容存在语义偏差或法律风险。此外，专利语料的长文本特性对模型的长程依赖与信息压缩能力提出严苛要求。在构建过程中，原始专利草案需经历复杂的预处理流程，包括去噪、分割及元数据对齐，其中技术术语标准化与跨领域歧义消除尤为棘手，同时需平衡数据规模与标注精度的矛盾。验证集仅4000条样本的有限规模，进一步限制了模型泛化性与鲁棒性评估的可靠性。

常用场景

经典使用场景

该数据集名为uspto_draft_bf_4-0_0-01_0-02_qwen_gemma，源自美国专利商标局（USPTO）的专利草稿数据，并经由Qwen和Gemma等大语言模型处理与筛选。其经典使用场景在于为自然语言处理中的专利文本分析提供高质量的训练与验证样本。研究人员常利用该数据集进行专利摘要生成、技术领域分类、专利相似度计算以及关键词抽取等任务，从而推动知识产权领域的智能化发展。

解决学术问题

在学术研究中，该数据集有效解决了专利文本数据稀疏、标注成本高昂以及领域术语复杂等核心难题。通过提供经过初步清洗和结构化的专利草稿文本，它支持大规模的语义理解与信息抽取实验，促进了深度学习在专利检索、技术趋势分析和创新评估等领域的应用探索，为法律与科技交叉研究提供了宝贵的语料资源。

衍生相关工作

基于该数据集，衍生出多项经典工作，包括面向专利上下文的预训练语言模型微调、多任务学习框架下的专利属性预测，以及结合图神经网络的专利引用关系建模。这些研究不仅提升了专利处理任务的效果，还催生了如PatentBERT和PatExpert等专门针对知识产权领域的模型工具，推动了专利分析与自然语言处理技术的深度融合。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集