Trelis/big_patent_100k_characters

Name: Trelis/big_patent_100k_characters
Creator: Trelis
Published: 2023-12-08 13:42:34
License: 暂无描述

Hugging Face2023-12-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Trelis/big_patent_100k_characters

下载链接

链接失效反馈

官方服务：

资源简介：

BIGPATENT数据集包含1.3百万条美国专利文档及其人类撰写的摘要。每个专利申请都有一个合作专利分类（CPC）代码，涵盖九个分类类别，包括人类必需品、操作执行、化学、纺织、固定建筑、机械工程、物理、电力和通用新技术标记。数据集支持的任务是摘要生成，每个实例包含从专利描述和摘要部分提取的description和abstract字段。数据集的语言为英语，是单语种数据集。

提供机构：

Trelis

原始信息汇总

数据集概述

数据集描述

数据集摘要

BIGPATENT是一个包含130万条美国专利文档及其人工编写摘要的大型数据集。每个美国专利申请都根据合作专利分类（CPC）代码进行分类，共有九个分类类别：

a: 人类必需品
b: 执行操作；运输
c: 化学；冶金
d: 纺织品；纸张
e: 固定建筑
f: 机械工程；照明；加热；武器；爆破
g: 物理学
h: 电力
y: 新技术或跨领域技术的通用标签

当前默认版本为2.1.2（修正更新为带大小写的原始字符串）和所有CPC代码： python from datasets import load_dataset ds = load_dataset("big_patent") # 默认是所有CPC代码 ds = load_dataset("big_patent", "all") # 与上述相同 ds = load_dataset("big_patent", "a") # 仅a CPC代码 ds = load_dataset("big_patent", codes=["a", "b"])

要使用1.0.0版本（小写分词单词），请传递codes和version参数： python ds = load_dataset("big_patent", codes="all", version="1.0.0") ds = load_dataset("big_patent", codes="a", version="1.0.0") ds = load_dataset("big_patent", codes=["a", "b"], version="1.0.0")

支持的任务和排行榜

[更多信息待补充]

语言

英语

数据集结构

数据实例

每个实例包含一对description和abstract。description是从专利的描述部分提取的，而abstract是从摘要部分提取的。 json { "description": "FIELD OF THE INVENTION
[0001] This invention relates to novel calcium phosphate-coated implantable medical devices and processes of making same. The unique calcium-phosphate coated implantable medical devices minimize...", "abstract": "This invention relates to novel calcium phosphate-coated implantable medical devices..." }

数据字段

description: 专利的详细描述。
abstract: 专利摘要。

数据分割

	train	validation	test
all	1207222	67068	67072
a	174134	9674	9675
b	161520	8973	8974
c	101042	5613	5614
d	10164	565	565
e	34443	1914	1914
f	85568	4754	4754
g	258935	14385	14386
h	257019	14279	14279
y	124397	6911	6911

数据集创建

策划理由

[更多信息待补充]

源数据

初始数据收集和规范化

[更多信息待补充]

源语言生产者

[更多信息待补充]

注释

注释过程

[更多信息待补充]

注释者

[更多信息待补充]

个人和敏感信息

[更多信息待补充]

使用数据的注意事项

数据集的社会影响

[更多信息待补充]

偏见的讨论

[更多信息待补充]

其他已知限制

[更多信息待补充]

附加信息

数据集策展人

[更多信息待补充]

许可信息

[更多信息待补充]

引用信息

bibtex @article{DBLP:journals/corr/abs-1906-03741, author = {Eva Sharma and Chen Li and Lu Wang}, title = {{BIGPATENT:} {A} Large-Scale Dataset for Abstractive and Coherent Summarization}, journal = {CoRR}, volume = {abs/1906.03741}, year = {2019}, url = {http://arxiv.org/abs/1906.03741}, eprinttype = {arXiv}, eprint = {1906.03741}, timestamp = {Wed, 26 Jun 2019 07:14:58 +0200}, biburl = {https://dblp.org/rec/journals/corr/abs-1906-03741.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

贡献

感谢@mattbui添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集