Trelis/big_patent_sample

Name: Trelis/big_patent_sample
Creator: Trelis
Published: 2023-10-09 13:32:05
License: 暂无描述

Hugging Face2023-10-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Trelis/big_patent_sample

下载链接

链接失效反馈

官方服务：

资源简介：

BIGPATENT数据集包含130万条美国专利文档记录，每条记录都附有人类编写的摘要。每个美国专利申请都根据合作专利分类（CPC）代码进行分类，共有九个分类类别。数据集的结构包括每个实例的`description`和`abstract`字段，分别从专利的描述部分和摘要部分提取。数据集的分割包括训练集、验证集和测试集，每个分类类别都有相应的数据量。

The BIGPATENT dataset contains 1.3 million records of U.S. patent documents, each accompanied by a human-written abstract. Each U.S. patent application is categorized in accordance with Cooperative Patent Classification (CPC) codes, covering a total of nine classification categories. The dataset includes `description` and `abstract` fields for each instance, which are extracted from the patent's description section and abstract section respectively. The dataset is split into training, validation, and test sets, with corresponding data volumes for each classification category.

提供机构：

Trelis

原始信息汇总

数据集概述

数据集描述

数据集摘要

BIGPATENT是一个包含130万条美国专利文档及其人工编写摘要的大型数据集。每个美国专利申请都根据合作专利分类（CPC）代码进行分类，共有九个分类类别：

a: 人类必需品
b: 操作执行；运输
c: 化学；冶金
d: 纺织品；纸张
e: 固定建筑
f: 机械工程；照明；加热；武器；爆破
g: 物理学
h: 电力
y: 新技术或交叉技术的通用标记

当前默认版本为2.1.2（修复更新为带大小写原始字符串）和所有CPC代码： python from datasets import load_dataset ds = load_dataset("big_patent") # 默认是所有CPC代码 ds = load_dataset("big_patent", "all") # 与上述相同 ds = load_dataset("big_patent", "a") # 仅a CPC代码 ds = load_dataset("big_patent", codes=["a", "b"])

要使用1.0.0版本（小写分词单词），需传递codes和version参数： python ds = load_dataset("big_patent", codes="all", version="1.0.0") ds = load_dataset("big_patent", codes="a", version="1.0.0") ds = load_dataset("big_patent", codes=["a", "b"], version="1.0.0")

支持的任务和排行榜

[更多信息需补充]

语言

英语

数据集结构

数据实例

每个实例包含一对description和abstract。description是从专利的描述部分提取的，而abstract是从摘要部分提取的。 json { description: FIELD OF THE INVENTION
[0001] This invention relates to novel calcium phosphate-coated implantable medical devices and processes of making same. The unique calcium-phosphate coated implantable medical devices minimize..., abstract: This invention relates to novel calcium phosphate-coated implantable medical devices... }

数据字段

description: 专利的详细描述。
abstract: 专利摘要。

数据分割

	train	validation	test
all	1207222	67068	67072
a	174134	9674	9675
b	161520	8973	8974
c	101042	5613	5614
d	10164	565	565
e	34443	1914	1914
f	85568	4754	4754
g	258935	14385	14386
h	257019	14279	14279
y	124397	6911	6911

数据集创建

策划理由

[更多信息需补充]

源数据

初始数据收集和规范化

[更多信息需补充]

源语言生产者

[更多信息需补充]

注释

注释过程

[更多信息需补充]

注释者

[更多信息需补充]

个人和敏感信息

[更多信息需补充]

使用数据的注意事项

数据集的社会影响

[更多信息需补充]

偏见的讨论

[更多信息需补充]

其他已知限制

[更多信息需补充]

附加信息

数据集策展人

[更多信息需补充]

许可信息

[更多信息需补充]

引用信息

bibtex @article{DBLP:journals/corr/abs-1906-03741, author = {Eva Sharma and Chen Li and Lu Wang}, title = {{BIGPATENT:} {A} Large-Scale Dataset for Abstractive and Coherent Summarization}, journal = {CoRR}, volume = {abs/1906.03741}, year = {2019}, url = {http://arxiv.org/abs/1906.03741}, eprinttype = {arXiv}, eprint = {1906.03741}, timestamp = {Wed, 26 Jun 2019 07:14:58 +0200}, biburl = {https://dblp.org/rec/journals/corr/abs-1906-03741.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

贡献

感谢@mattbui添加此数据集。

搜集汇总

数据集介绍

构建方式

在专利文本自动摘要领域，Trelis/big_patent_sample数据集源自大规模专利数据集Big Patent的精炼采样。其构建核心在于从原始超过130万条美国专利文档中，依据文本长度进行均衡抽样，旨在生成一个数据长度分布相对均匀的子集。该方法特别关注了文本长度在百万字符以内的样本，确保了数据在长度维度上的平坦分布，从而为模型训练提供了覆盖广泛文本规模的优质语料，尤其适合处理长达25万标记的长序列摘要任务。

特点

该数据集作为专利摘要研究的代表性资源，其显著特点在于专注于英文专利文本，并严格遵循合作专利分类体系，涵盖从人类必需品到物理学等九大技术领域。每个数据实例均由详细的专利描述部分与对应的人工撰写摘要构成，形成了高质量的摘要-原文配对。其采样策略赋予了数据集在文本长度上的均匀性，有效缓解了长尾分布问题，为训练面向不同长度专利文档的摘要模型提供了结构化的基准测试环境。

使用方法

利用该数据集进行科研或模型开发时，研究者可通过Hugging Face的`datasets`库便捷加载。加载时支持指定专利分类代码以筛选特定技术领域的数据，例如仅加载‘a’类或组合加载多个类别，同时也允许选择不同的数据集版本以适配研究需求。数据以标准分割提供训练集、验证集和测试集，用户可直接将其输入序列到序列模型进行训练与评估，从而高效推进专利文本自动摘要技术的探索与优化。

背景与挑战

背景概述

在自然语言处理领域，专利文本的自动摘要生成是一项极具挑战性的任务，因其涉及高度专业化的技术术语和复杂的逻辑结构。BIGPATENT数据集由密歇根大学的研究团队于2019年创建，核心研究人员包括Eva Sharma、Chen Li和Lu Wang。该数据集旨在解决专利文档的抽象性摘要生成问题，通过整合美国专利文件中的描述部分与人工撰写的摘要，构建了一个包含130万条记录的大规模语料库。其影响力在于推动了抽象性摘要模型的发展，特别是在处理长文本和跨技术领域的连贯性生成方面，为后续研究提供了重要的基准资源。

当前挑战

BIGPATENT数据集面临的挑战主要体现在两个方面：在领域问题层面，专利摘要生成需克服技术术语的歧义性、文档结构的复杂性以及摘要的抽象性与连贯性平衡，这些因素使得模型难以准确捕捉核心创新点；在构建过程中，挑战源于原始专利数据的非结构化特性，需要精细的预处理来提取描述与摘要部分，同时确保数据分布均衡以覆盖多个专利分类类别，这要求高效的标注流程和严格的质量控制机制。

常用场景

经典使用场景

在专利文本处理领域，Trelis/big_patent_sample数据集作为大规模专利摘要任务的代表性资源，其经典使用场景聚焦于抽象性文本摘要模型的训练与评估。该数据集通过精心采样的专利描述与人工撰写的摘要配对，为自然语言处理研究提供了结构化的语料基础。研究者常利用其均衡的文本长度分布，针对专利文献的冗长性与技术性特点，开发能够生成连贯、精炼摘要的算法，从而推动自动摘要技术在专业文档处理中的进展。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在专利摘要生成模型的优化与评估框架的构建。例如，研究者基于BIGPATENT原始数据提出了多种序列到序列的神经网络架构，如结合注意力机制与拷贝机制的摘要模型，以提升技术术语的准确保留。同时，该数据集也催生了针对长文档摘要的评估指标创新，以及跨专利分类领域的迁移学习研究，这些工作共同推动了专业文本自动处理技术的标准化与实用化进程。

数据集最近研究