300YearsOfBritishPatents
收藏Hugging Face2025-06-14 更新2025-06-15 收录
下载链接:
https://huggingface.co/datasets/matthewleechen/300YearsOfBritishPatents
下载链接
链接失效反馈官方服务:
资源简介:
英国300年专利数据集是一个包含了英国专利办公室在1617年至1899年间发布的历史专利说明书的大型数据集。该数据集含有322,874份专利说明书,包括标题、全文、分词列表和提取的命名实体。
The 300-Year UK Patent Dataset is a large-scale dataset containing historical patent specifications issued by the UK Patent Office between 1617 and 1899. This dataset includes 322,874 patent specifications, covering titles, full texts, word-segmented lists, and extracted named entities.
创建时间:
2025-06-14
搜集汇总
数据集介绍

构建方式
该数据集通过系统整理英国专利局1617至1899年间发布的专利文献构建而成,采用光学字符识别技术提取全文内容,并运用spaCy的en_core_web_lg模型进行词汇标记化处理。每项专利包含结构化字段如专利标题、全文文本、词汇标记列表及命名实体信息,其中命名实体通过精细标注涵盖人物、地址、职业等六大类别,地理坐标数据则通过地理编码技术精准获取。
使用方法
通过HuggingFace的datasets库可直接加载压缩的JSONL格式数据,配套的Colab示例笔记本提供了实体识别模型应用、专利-发明人关系表构建等典型分析流程。研究者可基于专利年份字段进行时间序列分析,利用词汇标记开展主题建模,或通过命名实体数据重建历史创新者社交网络。
背景与挑战
背景概述
300YearsOfBritishPatents数据集由Enrico Berkes、Matthew Lee Chen和Matteo Tranchero等学者共同构建,收录了1617年至1899年间英国专利局发布的322,874项专利说明书。这一数据集不仅包含专利标题和全文,还提供了分词后的词汇列表以及从文本中提取的命名实体,涵盖了人物、地址、职业、公司等多种实体类型。该数据集的建立为研究技术创新、经济发展以及历史变迁提供了宝贵的资源,尤其对经济学、历史学和科技政策研究领域具有深远影响。
当前挑战
该数据集在构建过程中面临多重挑战。首先,历史专利文献的OCR识别精度受限于原始文档的质量和年代久远导致的字迹模糊,这直接影响文本数据的准确性和完整性。其次,命名实体识别在历史语境下尤为复杂,如人物姓名、地名和职业术语的演变增加了实体标注的难度。此外,跨专利的发明者身份去重和关联需要复杂的算法支持,以确保数据的一致性和可靠性。这些挑战不仅考验了数据处理技术,也为后续研究提出了更高的要求。
常用场景
经典使用场景
在技术史与经济史交叉研究领域,300YearsOfBritishPatents数据集为学者提供了1617至1899年间英国专利文献的完整文本与结构化数据。研究者通过分析专利标题、全文内容及命名实体,能够追溯工业革命时期技术创新的演变轨迹,揭示特定技术领域的发展规律。该数据集尤其适用于计量史学研究中专利活动与经济增长关联性的量化分析,为技术创新扩散模型提供实证基础。
解决学术问题
该数据集有效解决了技术史研究中原始文献获取困难的核心问题。通过OCR文本与实体标注,学者可系统考察三个世纪间发明者网络的空间分布特征,验证技术创新集群理论。专利文本的词频分析为语言演化研究提供新素材,而跨时空的发明者ID体系则支持社会网络分析,弥补了传统经济史研究缺乏微观个体追踪数据的缺陷。
实际应用
在知识产权管理实践中,该数据集支持专利审查员进行历史专利检索与新颖性判断。企业研发部门通过分析历史技术演进路径,可优化创新战略布局。地理编码的发明者地址数据为区域创新政策制定者提供历史参照,而实体识别结果可直接应用于知识图谱构建,服务于技术情报分析系统。
数据集最近研究
最新研究方向
在技术创新与经济发展领域,300YearsOfBritishPatents数据集为研究工业革命以来的技术演变提供了宝贵资源。近期研究聚焦于利用自然语言处理技术挖掘专利文本中的实体关系,探索发明者网络与技术扩散模式。结合地理空间信息分析创新集群的形成机制,揭示技术变革与区域经济发展的内在关联。该数据集还支持量化历史研究,通过计量方法验证专利制度对长期经济增长的影响,为当代创新政策提供历史参照。
以上内容由遇见数据集搜集并总结生成



