five

Trelis/big_patent_100k_characters

收藏
Hugging Face2023-12-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Trelis/big_patent_100k_characters
下载链接
链接失效反馈
官方服务:
资源简介:
BIGPATENT数据集包含1.3百万条美国专利文档及其人类撰写的摘要。每个专利申请都有一个合作专利分类(CPC)代码,涵盖九个分类类别,包括人类必需品、操作执行、化学、纺织、固定建筑、机械工程、物理、电力和通用新技术标记。数据集支持的任务是摘要生成,每个实例包含从专利描述和摘要部分提取的description和abstract字段。数据集的语言为英语,是单语种数据集。

BIGPATENT数据集包含1.3百万条美国专利文档及其人类撰写的摘要。每个专利申请都有一个合作专利分类(CPC)代码,涵盖九个分类类别,包括人类必需品、操作执行、化学、纺织、固定建筑、机械工程、物理、电力和通用新技术标记。数据集支持的任务是摘要生成,每个实例包含从专利描述和摘要部分提取的description和abstract字段。数据集的语言为英语,是单语种数据集。
提供机构:
Trelis
原始信息汇总

数据集概述

数据集描述

数据集摘要

BIGPATENT是一个包含130万条美国专利文档及其人工编写摘要的大型数据集。每个美国专利申请都根据合作专利分类(CPC)代码进行分类,共有九个分类类别:

  • a: 人类必需品
  • b: 执行操作;运输
  • c: 化学;冶金
  • d: 纺织品;纸张
  • e: 固定建筑
  • f: 机械工程;照明;加热;武器;爆破
  • g: 物理学
  • h: 电力
  • y: 新技术或跨领域技术的通用标签

当前默认版本为2.1.2(修正更新为带大小写的原始字符串)和所有CPC代码: python from datasets import load_dataset ds = load_dataset("big_patent") # 默认是所有CPC代码 ds = load_dataset("big_patent", "all") # 与上述相同 ds = load_dataset("big_patent", "a") # 仅a CPC代码 ds = load_dataset("big_patent", codes=["a", "b"])

要使用1.0.0版本(小写分词单词),请传递codesversion参数: python ds = load_dataset("big_patent", codes="all", version="1.0.0") ds = load_dataset("big_patent", codes="a", version="1.0.0") ds = load_dataset("big_patent", codes=["a", "b"], version="1.0.0")

支持的任务和排行榜

[更多信息待补充]

语言

英语

数据集结构

数据实例

每个实例包含一对descriptionabstractdescription是从专利的描述部分提取的,而abstract是从摘要部分提取的。 json { "description": "FIELD OF THE INVENTION
[0001] This invention relates to novel calcium phosphate-coated implantable medical devices and processes of making same. The unique calcium-phosphate coated implantable medical devices minimize...", "abstract": "This invention relates to novel calcium phosphate-coated implantable medical devices..." }

数据字段

  • description: 专利的详细描述。
  • abstract: 专利摘要。

数据分割

train validation test
all 1207222 67068 67072
a 174134 9674 9675
b 161520 8973 8974
c 101042 5613 5614
d 10164 565 565
e 34443 1914 1914
f 85568 4754 4754
g 258935 14385 14386
h 257019 14279 14279
y 124397 6911 6911

数据集创建

策划理由

[更多信息待补充]

源数据

初始数据收集和规范化

[更多信息待补充]

源语言生产者

[更多信息待补充]

注释

注释过程

[更多信息待补充]

注释者

[更多信息待补充]

个人和敏感信息

[更多信息待补充]

使用数据的注意事项

数据集的社会影响

[更多信息待补充]

偏见的讨论

[更多信息待补充]

其他已知限制

[更多信息待补充]

附加信息

数据集策展人

[更多信息待补充]

许可信息

[更多信息待补充]

引用信息

bibtex @article{DBLP:journals/corr/abs-1906-03741, author = {Eva Sharma and Chen Li and Lu Wang}, title = {{BIGPATENT:} {A} Large-Scale Dataset for Abstractive and Coherent Summarization}, journal = {CoRR}, volume = {abs/1906.03741}, year = {2019}, url = {http://arxiv.org/abs/1906.03741}, eprinttype = {arXiv}, eprint = {1906.03741}, timestamp = {Wed, 26 Jun 2019 07:14:58 +0200}, biburl = {https://dblp.org/rec/journals/corr/abs-1906-03741.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

贡献

感谢@mattbui添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作