five

AIPD_nlp_g_all_claims_grpo

收藏
Hugging Face2025-07-19 更新2025-07-20 收录
下载链接:
https://huggingface.co/datasets/patent/AIPD_nlp_g_all_claims_grpo
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了文档ID、应用ID、索赔编号以及相应的索赔文本等信息。数据集被划分为训练集、测试集和验证集,分别用于模型的训练、测试和验证。数据集总大小约为301MB,下载大小约为114MB。
创建时间:
2025-07-19
原始信息汇总

数据集概述

基本信息

  • 数据集名称: AIPD_nlp_g_all_claims_grpo
  • 下载大小: 114673741字节
  • 数据集大小: 301372605.00000006字节

数据集结构

特征

  • doc_id: 字符串类型,文档标识符
  • appl_id: 字符串类型,申请标识符
  • claim1: 字符串类型,权利要求1
  • claim_number: 整型,权利要求编号
  • claim_text: 字符串类型,权利要求文本

数据划分

  • 训练集 (train)
    • 样本数量: 155493
    • 数据大小: 271233774.5875465字节
  • 测试集 (test)
    • 样本数量: 8639
    • 数据大小: 15069415.20622674字节
  • 验证集 (valid)
    • 样本数量: 8639
    • 数据大小: 15069415.20622674字节

配置文件

  • 默认配置 (default)
    • 训练集路径: data/train-*
    • 测试集路径: data/test-*
    • 验证集路径: data/valid-*
搜集汇总
数据集介绍
main_image_url
构建方式
在专利文本分析领域,AIPD_nlp_g_all_claims_grpo数据集通过系统化采集与结构化处理构建而成。该数据集从专利文献中提取关键字段,包括文档编号(doc_id)、申请号(appl_id)、权利要求编号(claim_number)及权利要求文本(claim_text)等核心要素,采用标准化的数据清洗流程确保信息一致性。数据划分严格遵循机器学习范式,按比例生成训练集、验证集和测试集,其中训练集包含155,493条样本,验证集和测试集各含8,639条样本,形成完整的模型开发与评估体系。
特点
该数据集最显著的特征在于其专业化的专利权利要求文本集合,每条记录均包含完整的权利要求层级结构。数据维度设计兼顾标识字段与文本内容,doc_id和appl_id构成专利追溯体系,claim_number实现权利要求定位,claim_text字段则保留原始技术描述特征。数据规模达30GB以上,覆盖超过17万条专利权利要求,文本长度和复杂度保持专利文献特有的专业性和技术深度,为自然语言处理任务提供丰富的语义特征。
使用方法
针对专利文本挖掘需求,该数据集支持端到端的NLP模型训练流程。训练集可用于构建权利要求分类、专利相似度计算等任务的初始模型,验证集实现超参数调优,测试集则提供最终性能评估基准。使用时应根据claim_number字段建立权利要求间的关联关系,结合appl_id字段可实现同族专利分析。文本字段需采用适合技术文献的分词策略,建议预训练语言模型进行特征提取时考虑专利术语的特殊语义。
背景与挑战
背景概述
AIPD_nlp_g_all_claims_grpo数据集聚焦于专利文本的自然语言处理领域,由专业研究团队构建,旨在为专利权利要求文本的分析与挖掘提供结构化数据支持。该数据集收录了涵盖多个技术领域的专利权利要求文本,每条记录均包含专利文档编号、申请号、权利要求序号及权利要求文本等关键字段,其构建反映了知识产权领域对高效文本分析工具的迫切需求。作为专利NLP研究的重要基础设施,该数据集为权利要求分类、技术特征提取等任务提供了高质量的标注数据,推动了知识产权智能化处理的研究进程。
当前挑战
专利权利要求文本具有高度专业性和法律严谨性,这为NLP模型的理解与处理带来了显著挑战。权利要求文本中普遍存在的长句嵌套结构和专业术语要求模型具备强大的语义解析能力,而法律文本特有的精确性要求则对信息抽取的准确性提出了严苛标准。在数据构建层面,专利文献的保密性限制和标注过程的复杂性导致高质量训练样本的获取成本居高不下,不同技术领域间文本特征的差异性进一步加剧了数据分布的复杂性。如何克服领域专业性与数据稀疏性之间的张力,成为该数据集应用过程中亟待解决的核心问题。
常用场景
经典使用场景
在自然语言处理领域,AIPD_nlp_g_all_claims_grpo数据集因其丰富的专利权利要求文本数据而备受关注。该数据集广泛应用于文本分类、信息抽取和语义分析等任务,为研究人员提供了高质量的标注语料。特别是在专利文本的自动处理和分析中,该数据集能够有效支持模型训练和评估,显著提升了相关任务的性能。
实际应用
在实际应用中,AIPD_nlp_g_all_claims_grpo数据集被广泛用于专利检索、侵权分析和技术趋势预测等领域。企业利用该数据集训练模型,自动化处理海量专利文档,显著提高了工作效率。法律和技术团队通过分析权利要求文本,快速识别潜在的技术冲突和创新机会,为决策提供数据支持。
衍生相关工作
基于AIPD_nlp_g_all_claims_grpo数据集,学术界衍生了一系列经典工作,包括专利文本分类模型、权利要求生成系统和专利相似度计算算法。这些工作不仅扩展了数据集的应用范围,还推动了自然语言处理技术在知识产权领域的创新。部分研究进一步优化了数据预处理和特征提取方法,为后续研究提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作