five

ufukhaman/uspto_balanced_200k_ipc_classification

收藏
Hugging Face2023-11-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ufukhaman/uspto_balanced_200k_ipc_classification
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为uspto_balanced_filtered_200k_ipc_patents,由美国专利商标局(USPTO)创建,包含英语内容,遵循MIT许可证。数据集规模在10万到100万之间,来源于USPTO,涉及专利、精炼专利、专利分类、USPTO和国际专利分类(IPC)等标签。该数据集主要用于文本分类任务,特别是话题分类。

该数据集名为uspto_balanced_filtered_200k_ipc_patents,由美国专利商标局(USPTO)创建,包含英语内容,遵循MIT许可证。数据集规模在10万到100万之间,来源于USPTO,涉及专利、精炼专利、专利分类、USPTO和国际专利分类(IPC)等标签。该数据集主要用于文本分类任务,特别是话题分类。
提供机构:
ufukhaman
原始信息汇总

数据集概述

基本信息

  • 名称: uspto_balanced_filtered_200k_ipc_patents
  • 语言: 英语(en)
  • 许可证: MIT
  • 大小: 100K<n<1M

来源与创建者

  • 来源数据集: USPTO
  • 创建者: USPTO

标签与任务

  • 标签:
    • patent
    • refined_patents
    • patent classification
    • uspto
    • ipc
  • 任务类别: text-classification
  • 具体任务: topic-classification
搜集汇总
数据集介绍
main_image_url
构建方式
在专利文本分析领域,数据集的构建需兼顾权威性与平衡性。本数据集源自美国专利商标局(USPTO)的专利文献,通过精心筛选与处理,从海量专利中提取了约20万条样本。构建过程中,采用了平衡采样策略,确保各IPC分类的样本分布均匀,避免了类别不平衡问题。数据经过清洗与标准化,移除了冗余信息,保留了专利标题、摘要及IPC分类代码等核心内容,为后续的分类任务奠定了可靠基础。
使用方法
在专利智能分析应用中,本数据集可直接用于IPC分类任务的模型训练与测试。用户可通过加载数据集,将专利文本作为输入特征,IPC代码作为目标标签,构建监督学习模型。建议采用自然语言处理技术,如预训练语言模型进行微调,以提升分类准确率。数据集兼容常见的机器学习框架,支持分割为训练集、验证集与测试集,便于进行交叉验证与性能比较,推动专利自动化分类研究的发展。
背景与挑战
背景概述
在知识产权与专利分析领域,专利文本的自动分类是提升信息检索效率与技术创新洞察的关键技术。ufukhaman/uspto_balanced_200k_ipc_classification数据集由美国专利商标局(USPTO)提供原始数据,并由研究社区进行平衡化处理,专注于国际专利分类(IPC)体系下的文本分类任务。该数据集构建于专利文献的丰富语料之上,旨在通过机器学习方法解决专利文档的自动化归类问题,从而辅助法律分析、技术趋势预测及竞争情报监测,对推动自然语言处理在专业领域的应用具有显著影响力。
当前挑战
该数据集的核心挑战在于应对专利文本特有的复杂性与专业性。专利文献通常包含高度技术化的术语、冗长的法律描述及嵌套的结构,这为模型准确理解语义并映射至精细的IPC分类代码带来了困难。在构建过程中,挑战主要源于数据平衡化处理:原始专利数据存在类别分布不均的问题,需通过采样或过滤策略确保各类别样本量均衡,以避免模型偏见,同时保持数据代表性与真实性,这要求精心的预处理与质量控制。
常用场景
经典使用场景
在专利信息处理领域,该数据集为国际专利分类(IPC)任务提供了标准化的文本分类基准。其核心应用场景在于训练和评估机器学习模型,特别是自然语言处理中的主题分类算法,以自动化识别专利文档的技术领域归属。通过平衡的样本分布,研究者能够系统检验模型在跨技术类别上的泛化性能,从而推动专利智能检索与分析技术的发展。
解决学术问题
该数据集有效解决了专利文本自动分类中的类别不平衡与标注一致性难题。通过提供经过平衡处理的专利摘要与IPC代码对应关系,它为学术界构建了可靠的实验平台,助力于探索深度学习在长文本多标签分类中的优化策略。其意义在于降低了专利分析领域的研究门槛,促进了跨学科知识发现与技术趋势预测方法的创新。
实际应用
在实际产业环境中,该数据集支撑着专利审查辅助系统与知识产权管理工具的研发。基于其训练的模型可集成至专利数据库搜索引擎,实现技术主题的智能过滤与聚类,大幅提升专利律师或企业研发部门的文献调研效率。同时,它为技术竞争情报分析提供了自动化解决方案,帮助机构动态追踪特定领域的创新态势与专利布局。
数据集最近研究
最新研究方向
在专利文本分析领域,USPTO平衡专利数据集作为关键资源,正推动自然语言处理与知识产权交叉研究的前沿进展。当前研究聚焦于利用深度学习模型,如Transformer架构,对专利文档进行细粒度IPC分类,以提升自动化处理的准确性与效率。热点方向涉及结合多模态数据增强技术,整合专利图像与文本信息,探索跨领域知识迁移方法,应对专利语言的专业性与复杂性。这些研究不仅优化了专利检索与审查流程,还为技术创新趋势分析提供了数据支撑,具有显著的产业应用价值与学术意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作