cwinkler/patents_green_plastics
收藏Hugging Face2023-01-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cwinkler/patents_green_plastics
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: abstract
dtype: string
- name: label
dtype: int64
splits:
- name: train
num_bytes: 8088461
num_examples: 11196
download_size: 4025753
dataset_size: 8088461
language:
- en
size_categories:
- 10K<n<100K
---
# Dataset Card for "Patents_Green_Plastics"
number of rows: 11.196
features: [title, label]
label: 0, 1
The dataset contains patent abstracts that are labeled as 1 (="Green Plastics") and 0 (="Not Green Plastics").
# Dataset Creation
The [BIGPATENT](https://huggingface.co/datasets/big_patent) dataset is the source for this dataset.
In a first step, abstracts of BIGPATENT were filtered by the terms "plastics" and "polymer". The resulting "Plastics" dataset contained 64.372 samples.
In a second step, the 64.372 samples were filtered by terms which define "green plastics".
"Green Plastics" are defined by the list of terms:
"degrada", "recycl", "bio", "compost", "bact", "waste recovery", "zero waste", "sustainab", "Bio-Based", "Bio-Degradable", "Renewable", "Green Plastics", "Renewable", "Degradable", "Compostable", "Bio-resorbable", "Bio-soluble", "Cellulose", "Biodegradable","Mycelium", "Recyclability", "Degradability", "Bio-Polymer", "reuse", "reusable", "reusing", "Degradation", "Multiple Use", "Bioplastic", "Polyhydroxyalkanoates", "PHA", "Polylactide", "PLA", "Polyglycolide", "PGA"
(some terms might repeat)
The group of "Green Plastics" containing 5.598 rows was labeled as 1.
An equal amount of samples (=5.598 rows) was randomly chosen from the "Plastics" dataset, defined as "Not Green Plastics" and labeled as 0.
Both groups ("Green Plastics" and "Not Green Plastics") were merged together.
提供机构:
cwinkler
原始信息汇总
数据集概述
基本信息
- 数据集名称: Patents_Green_Plastics
- 行数: 11,196
- 特征:
- abstract: 字符串类型
- label: 整数类型 (int64)
- 标签:
- 0: "Not Green Plastics"
- 1: "Green Plastics"
数据集大小
- 下载大小: 4,025,753字节
- 数据集大小: 8,088,461字节
- 训练集大小:
- 字节数: 8,088,461
- 示例数: 11,196
语言
- 语言: 英语 (en)
数据集类别
- 大小类别: 10K<n<100K
数据集创建
- 来源: 从BIGPATENT数据集筛选而来
- 筛选过程:
- 第一步: 从BIGPATENT中筛选出包含"plastics"和"polymer"的摘要,形成"Plastics"数据集,包含64,372样本。
- 第二步: 进一步筛选出定义"green plastics"的术语,形成"Green Plastics"组,包含5,598样本,标记为1。
- 第三步: 从"Plastics"数据集中随机选择5,598样本,标记为0,定义为"Not Green Plastics"。
- 最终合并: 将"Green Plastics"和"Not Green Plastics"两组数据合并。
绿色塑料定义术语
- 术语列表: "degrada", "recycl", "bio", "compost", "bact", "waste recovery", "zero waste", "sustainab", "Bio-Based", "Bio-Degradable", "Renewable", "Green Plastics", "Renewable", "Degradable", "Compostable", "Bio-resorbable", "Bio-soluble", "Cellulose", "Biodegradable","Mycelium", "Recyclability", "Degradability", "Bio-Polymer", "reuse", "reusable", "reusing", "Degradation", "Multiple Use", "Bioplastic", "Polyhydroxyalkanoates", "PHA", "Polylactide", "PLA", "Polyglycolide", "PGA"
搜集汇总
数据集介绍

构建方式
在可持续材料科学领域,专利文献是技术创新的重要载体。本数据集以BIGPATENT数据集为基础,通过两阶段筛选流程构建而成。首先,从原始数据中提取包含“塑料”和“聚合物”关键词的摘要,形成初始塑料专利集合。随后,依据涵盖降解、回收、生物基等核心概念的专业术语列表,进一步筛选出绿色塑料相关专利,并标记为正类样本。为确保类别平衡,从剩余非绿色塑料专利中随机抽取等量样本作为负类,最终合并形成标注完备的数据集。
特点
该数据集聚焦于绿色塑料这一前沿材料类别,其核心特征体现在结构化标注与领域针对性上。所有专利摘要均经过人工定义的术语体系精细分类,标签清晰区分绿色与非绿色塑料技术。数据规模适中,涵盖超过一万条样本,确保了统计分析的可靠性。内容上紧密围绕可持续性主题,收录了从生物降解材料到循环经济工艺的广泛技术描述,为环境友好型材料研究提供了高质量的文本语料。
使用方法
在材料信息学与自然语言处理交叉研究中,本数据集可作为基准资源支持多类任务。研究者可直接加载数据进行文本分类模型训练,评估模型对绿色技术概念的识别能力。亦可通过特征提取分析术语分布规律,揭示技术发展趋势。使用时应遵循标准数据划分流程,注意英文文本的语言特性,并可结合领域词典进行扩展分析,以深入挖掘绿色材料创新的文本模式。
背景与挑战
背景概述
在可持续材料科学领域,绿色塑料作为传统石油基聚合物的环保替代品,其研发与创新日益受到学术界与工业界的重视。数据集'cwinkler/patents_green_plastics'由研究人员基于BIGPATENT专利数据集构建,专注于绿色塑料相关专利文本的分类任务。该数据集通过筛选包含'塑料'与'聚合物'关键词的专利摘要,并依据降解性、可再生性、生物基等核心环保特征定义绿色塑料术语列表,最终构建了包含11,196条样本的平衡数据集,其中绿色塑料与非绿色塑料标签各占一半。这一资源为自然语言处理技术在环保材料专利分析中的应用提供了重要基础,推动了可持续技术领域的智能化信息挖掘。
当前挑战
该数据集旨在解决绿色塑料专利文本的自动分类问题,其核心挑战在于准确区分环保材料与传统塑料的技术描述。由于绿色塑料术语涵盖生物降解、可再生、堆肥等多维属性,文本中常出现语义模糊或交叉概念,增加了模型学习精确边界的难度。在构建过程中,挑战主要源于术语筛选的复杂性:定义绿色塑料的术语列表需兼顾全面性与特异性,避免遗漏关键概念或引入噪声;同时,从大规模专利数据中平衡采样绿色与非绿色样本,需确保数据代表性而不失客观性,这对数据集的可靠性与泛化能力提出了较高要求。
常用场景
经典使用场景
在可持续材料科学领域,cwinkler/patents_green_plastics数据集为绿色塑料技术的文本分类研究提供了关键资源。该数据集通过专利摘要的二元标注,构建了绿色塑料与非绿色塑料的对比样本,常用于训练和评估自然语言处理模型,以识别和归类与环保塑料相关的技术文献。其结构化设计支持机器学习算法在文本特征提取和模式识别方面的探索,为材料信息学中的自动化文档分析奠定基础。
解决学术问题
该数据集有效应对了可持续技术文献挖掘中的核心挑战,即如何从海量专利数据中精准筛选绿色塑料相关创新。通过基于术语过滤的标注方法,它解决了传统人工分类效率低下、主观偏差大的问题,为量化分析环保材料技术趋势提供了标准化基准。其意义在于推动了交叉学科研究,将自然语言处理与材料科学结合,助力学术界系统评估绿色塑料技术的发展脉络与创新密度。
衍生相关工作
基于该数据集衍生的经典工作包括绿色技术趋势预测模型和专利价值评估框架。研究者通过结合深度学习与时间序列分析,构建了环保材料创新扩散的量化模型;另有工作聚焦于专利文本的语义嵌入,开发出跨语言绿色技术检索系统。这些成果进一步拓展至生物基材料生命周期评估,形成了从文本挖掘到技术预测的完整方法论链条。
以上内容由遇见数据集搜集并总结生成



