five

EPD|专利分析数据集|自然语言处理数据集

收藏
arXiv2025-05-19 更新2025-05-21 收录
专利分析
自然语言处理
下载链接:
https://github.com/scylj1/EPD
下载链接
链接失效反馈
资源简介:
EPD是一个包含107,000个欧洲专利的数据集,由欧洲专利局(EPO)在2024年授权。该数据集旨在支持各种专利相关任务,包括权利要求书生成。EPD的特点是包含了高质量的已授权专利,这些专利具有最终确定且法律批准的文本。与现有数据集相比,EPD提供了更丰富的文本数据和结构化元数据,有助于更全面地评估LLMs的性能和鲁棒性。此外,EPD还包括一个难以处理的子集,用于模拟现实世界中权利要求书生成的挑战,从而推动未来的研究。
提供机构:
剑桥大学
创建时间:
2025-05-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
EPD数据集通过欧洲专利局(EPO)的开放专利服务(OPS)API系统构建,精选2024年1月至8月期间授权的英语专利文本。研究团队采用严格的筛选标准,剔除关键字段缺失的专利文件,并将原始XML格式数据转换为结构化JSON格式。特别值得注意的是,该数据集同时收录专利申请版(A代码)和授权版(B代码)文本,通过比对两种版本为质量评估提供天然标注。数据清洗过程中保留了描述部分在8000词以内的样本,既确保与现有研究可比性,又适应大语言模型的上下文长度限制。
使用方法
该数据集支持多任务研究:在权利要求生成任务中,建议以专利描述为输入,采用LoRA等参数高效微调方法适配Llama-3等基础模型;分类任务可利用IPC代码体系,通过权利要求文本预测专利的部、类、小类三级标签;摘要生成任务则建立从权利要求到摘要的序列生成 pipeline。实验表明,在EPD上微调的模型在跨域测试中优于USPTO数据训练的模型,建议保留13%样本作为测试集以评估泛化能力。对于困难样本,需特别关注模型的技术特征提取与法律术语重组能力。
背景与挑战
背景概述
EPD(European Patent Dataset)是由剑桥大学的Lekang Jiang、Chengzu Li和Stephan Goetz于2025年提出的一个专注于欧洲专利的数据集。该数据集旨在解决专利权利要求生成领域的多样性和质量问题,特别是在欧洲专利局(EPO)的专利数据上。EPD的创建填补了现有数据集(如USPTO数据集)在司法管辖区多样性、数据质量和现实场景模拟方面的空白。EPD包含10.7万项欧洲专利,提供了丰富的文本数据和结构化元数据,支持多种专利相关任务,尤其是权利要求生成。该数据集的影响力在于其能够促进跨司法管辖区的模型评估,并显著提升生成权利要求的质量和跨领域泛化能力。
当前挑战
EPD数据集面临的挑战主要包括两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,权利要求生成任务需要处理复杂的法律和技术语言,确保生成的权利要求既全面又可执行,同时符合欧洲专利局的法律和格式要求。不同司法管辖区的专利在语言风格和法律惯例上的差异增加了模型泛化的难度。在构建过程中,挑战包括从欧洲专利局获取高质量、已授权的专利文本,处理长文本(如超过1万token的描述部分),以及确保数据的一致性和结构化。此外,数据集的构建还需要解决时间上的数据泄漏风险,确保测试数据不会出现在现有大型语言模型的预训练数据中。
常用场景
经典使用场景
EPD数据集在专利权利要求生成领域具有广泛的应用价值。该数据集主要应用于训练和评估大型语言模型(LLMs)以生成高质量的专利权利要求。通过提供欧洲专利局(EPO)授权的专利文本,EPD数据集能够帮助研究人员和从业者更准确地模拟真实世界的专利撰写过程。特别是在处理欧洲专利时,EPD数据集能够捕捉到欧洲专利特有的法律和语言风格,从而提升模型在跨司法管辖区任务中的表现。
解决学术问题
EPD数据集解决了专利权利要求生成中的几个关键学术问题。首先,它填补了欧洲专利数据的空白,使得研究人员能够进行跨司法管辖区的模型评估。其次,EPD数据集提供了高质量的授权专利文本,避免了现有数据集中未审查或临时专利申请的问题。此外,EPD数据集还包含一个难度较高的子集,能够更好地模拟真实世界中的专利撰写挑战,从而推动模型在复杂场景下的性能提升。
实际应用
EPD数据集在实际应用中具有广泛的前景。专利律师和发明人可以利用基于EPD数据集训练的模型来辅助撰写专利权利要求,从而节省时间和成本。此外,专利审查员也可以利用这些模型来快速评估专利申请的质量和合规性。EPD数据集的高质量和多样性使其成为企业和研究机构在专利相关任务中的理想选择。
数据集最近研究
最新研究方向
近年来,EPD数据集在专利权利要求生成领域的研究方向主要集中在以下几个方面:首先,该数据集通过提供欧洲专利局(EPO)的高质量授权专利文本,填补了现有研究主要依赖美国专利商标局(USPTO)数据的空白,为跨司法管辖区的专利权利要求生成研究提供了重要基准。其次,EPD数据集特别设计了一个具有挑战性的子集,以模拟实际专利撰写中的复杂场景,这一创新为评估大型语言模型(LLMs)在真实世界条件下的性能提供了新的研究维度。此外,实验表明,基于EPD微调的LLMs在权利要求质量和跨领域泛化能力上显著优于基于其他数据集训练的模型,甚至超越了GPT-4o等先进模型,这为专利文本生成领域设立了新的技术标准。EPD数据集的引入不仅促进了多司法管辖区专利文本处理的研究,也为未来探索更复杂、更真实的专利自动化撰写系统提供了宝贵的数据支持。
相关研究论文
  • 1
    Enriching Patent Claim Generation with European Patent Dataset剑桥大学 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

RadDet

RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。

github 收录