Trelis/big_patent_sample
收藏数据集概述
数据集描述
数据集摘要
BIGPATENT是一个包含130万条美国专利文档及其人工编写摘要的大型数据集。每个美国专利申请都根据合作专利分类(CPC)代码进行分类,共有九个分类类别:
- a: 人类必需品
- b: 操作执行;运输
- c: 化学;冶金
- d: 纺织品;纸张
- e: 固定建筑
- f: 机械工程;照明;加热;武器;爆破
- g: 物理学
- h: 电力
- y: 新技术或交叉技术的通用标记
当前默认版本为2.1.2(修复更新为带大小写原始字符串)和所有CPC代码: python from datasets import load_dataset ds = load_dataset("big_patent") # 默认是所有CPC代码 ds = load_dataset("big_patent", "all") # 与上述相同 ds = load_dataset("big_patent", "a") # 仅a CPC代码 ds = load_dataset("big_patent", codes=["a", "b"])
要使用1.0.0版本(小写分词单词),需传递codes和version参数:
python
ds = load_dataset("big_patent", codes="all", version="1.0.0")
ds = load_dataset("big_patent", codes="a", version="1.0.0")
ds = load_dataset("big_patent", codes=["a", "b"], version="1.0.0")
支持的任务和排行榜
[更多信息需补充]
语言
英语
数据集结构
数据实例
每个实例包含一对description和abstract。description是从专利的描述部分提取的,而abstract是从摘要部分提取的。
json
{
description: FIELD OF THE INVENTION
[0001] This invention relates to novel calcium phosphate-coated implantable medical devices and processes of making same. The unique calcium-phosphate coated implantable medical devices minimize...,
abstract: This invention relates to novel calcium phosphate-coated implantable medical devices...
}
数据字段
description: 专利的详细描述。abstract: 专利摘要。
数据分割
| train | validation | test | |
|---|---|---|---|
| all | 1207222 | 67068 | 67072 |
| a | 174134 | 9674 | 9675 |
| b | 161520 | 8973 | 8974 |
| c | 101042 | 5613 | 5614 |
| d | 10164 | 565 | 565 |
| e | 34443 | 1914 | 1914 |
| f | 85568 | 4754 | 4754 |
| g | 258935 | 14385 | 14386 |
| h | 257019 | 14279 | 14279 |
| y | 124397 | 6911 | 6911 |
数据集创建
策划理由
[更多信息需补充]
源数据
初始数据收集和规范化
[更多信息需补充]
源语言生产者
[更多信息需补充]
注释
注释过程
[更多信息需补充]
注释者
[更多信息需补充]
个人和敏感信息
[更多信息需补充]
使用数据的注意事项
数据集的社会影响
[更多信息需补充]
偏见的讨论
[更多信息需补充]
其他已知限制
[更多信息需补充]
附加信息
数据集策展人
[更多信息需补充]
许可信息
[更多信息需补充]
引用信息
bibtex @article{DBLP:journals/corr/abs-1906-03741, author = {Eva Sharma and Chen Li and Lu Wang}, title = {{BIGPATENT:} {A} Large-Scale Dataset for Abstractive and Coherent Summarization}, journal = {CoRR}, volume = {abs/1906.03741}, year = {2019}, url = {http://arxiv.org/abs/1906.03741}, eprinttype = {arXiv}, eprint = {1906.03741}, timestamp = {Wed, 26 Jun 2019 07:14:58 +0200}, biburl = {https://dblp.org/rec/journals/corr/abs-1906-03741.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }
贡献
感谢@mattbui添加此数据集。




