five

patents_50k_green.parquet

收藏
Hugging Face2026-02-19 更新2026-02-20 收录
下载链接:
https://huggingface.co/datasets/alinashrestha/patents_50k_green.parquet
下载链接
链接失效反馈
官方服务:
资源简介:
Patents 50k Green Dataset 是一个包含5万条专利权利要求的数据集,其中包含两种类型的标注:由大型语言模型生成的银标(Silver LLM labels)和经过人工验证的100条金标(human-verified gold labels)。数据集文件包括train_final_clean.parquet、train_final_with_gold.parquet、eval_silver_clean.parquet和gold_100_clean.parquet。特别说明的是,在100条经过人工复核的样本中,金标标注会覆盖原有的银标标注(覆盖比例为5/100)。
创建时间:
2026-02-16
搜集汇总
数据集介绍
构建方式
在绿色技术专利分析领域,该数据集通过系统化流程构建而成。首先从专利文献中提取了五万条权利要求文本,作为核心数据基础。随后采用大型语言模型对全部样本进行初步标注,生成银标标签。为确保标注质量,研究团队进一步引入人机协同机制,由领域专家对其中一百条样本进行精细复核,形成金标标签集,并在少数存在分歧的案例中以人工标注覆盖初始模型输出,从而构建出层次分明的标注体系。
特点
本数据集的核心特点体现在其双层标注结构与高质量验证机制上。五万条专利权利要求文本全面覆盖绿色技术领域,为模型训练提供了充足的语料基础。银标标签借助大语言模型的泛化能力实现了大规模初步标注,而精心筛选的百条金标样本则代表了经过严格人工校验的高质量基准,尤其其中五条覆盖案例凸显了人类专家与模型判断间的细微差异,为评估模型可靠性提供了关键参照。这种结构平衡了标注规模与精度,适用于不同严格度的研究需求。
使用方法
针对不同研究阶段,数据集提供了清晰的使用路径。训练阶段可主要利用包含银标的大规模样本进行模型预训练或微调,以学习领域内广泛的语言模式与分类特征。验证与评估阶段则应将百条金标样本作为测试集或开发集,用于精确衡量模型性能,特别是通过那五条覆盖样本深入分析模型误判情况。实际应用中,研究者可先基于银标数据构建基线模型,再以金标数据迭代优化,最终利用独立评估集检验模型泛化能力,形成完整的技术开发闭环。
背景与挑战
背景概述
在绿色技术创新日益成为全球可持续发展核心驱动力的背景下,专利文献作为技术知识的重要载体,其自动分类与信息提取研究显得尤为关键。Patents 50k Green数据集应运而生,它由研究团队精心构建,旨在为绿色技术专利的自动化标注与分类提供高质量的基准数据。该数据集聚焦于从海量专利权利要求书中识别与绿色技术相关的文本,其创建不仅响应了全球对清洁能源和环保技术的迫切需求,也为自然语言处理与知识产权交叉领域的研究注入了新的活力。通过结合大规模银标签与人工验证的金标签,该数据集为模型训练与评估提供了可靠支撑,显著推动了绿色技术文本挖掘的精确性与效率。
当前挑战
该数据集致力于解决绿色技术专利文本的自动分类问题,其核心挑战在于专利文本的专业性、复杂性和语义模糊性,这些特性使得传统分类模型难以准确捕捉技术细节与绿色属性之间的微妙关联。在构建过程中,研究人员面临标注一致性与成本效益的平衡难题:大规模银标签虽能覆盖广泛样本,但其可靠性有限;而人工金标签虽精度高,却受制于高昂的标注成本与领域专家资源的稀缺性。此外,专利文本的冗长结构与法律术语的多样性进一步增加了数据清洗与标准化的复杂性,要求标注框架既能适应技术描述的动态演变,又能保持跨领域分类的一致性。
常用场景
经典使用场景
在绿色技术专利分析领域,该数据集为自然语言处理模型提供了精准的训练与评估基准。其核心应用场景在于自动化专利文本分类,特别是针对专利权利要求书中绿色技术相关内容的识别与标注。通过结合大规模银标签数据与人工验证的金标签样本,研究人员能够构建高效的监督学习框架,用于训练分类器以区分绿色与非绿色专利,从而加速技术趋势分析。
解决学术问题
该数据集有效解决了绿色技术专利识别中标注数据稀缺与噪声干扰的学术挑战。传统方法依赖人工标注,成本高昂且难以扩展;而纯自动标注则存在准确性不足的问题。通过引入人机协同标注机制,该数据集提供了高质量的金标签样本,为评估模型性能、减少标注偏差以及提升分类鲁棒性奠定了数据基础,推动了可持续技术挖掘领域的实证研究进展。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,主要集中在弱监督学习与主动学习框架的优化。例如,研究者利用其银标签与金标签的混合结构,开发了噪声鲁棒性增强的分类算法,以提升模型在有限标注数据下的泛化能力。同时,该数据集也催生了针对专利文本的领域自适应方法,推动了自然语言处理技术在知识产权分析中的专业化应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作