five

Geocoding of worldwide patent data

收藏
DataCite Commons2025-05-12 更新2025-05-17 收录
下载链接:
https://dataverse.harvard.edu/citation?persistentId=doi:10.7910/DVN/OTTBDX
下载链接
链接失效反馈
官方服务:
资源简介:
The file geoc_inv.txt contains identifiers for patent first filings (corresponding to appln_id in PATSTAT), latitude, longitude, city, region, and country of the inventor. Missing coordinates have been imputed from equivalents and other second filings or from information on the location of applicants. The file also contains a variable indicating the source of information ('source'): 1: information comes from the first filing itself 2: information comes from direct equivalent 3: information comes from other subsequent filings 4: information comes from the applicant’s location in first filings 5: information comes from the applicant’s location in the equivalent 6: information comes from the applicant’s location in other subsequent filings; the column 'coord_source' indicates the source of coordinates (whether they come from geolocalisation services, from geonames, or from PatentsView). It is possible to select certain types of first filings based on column 'type'. For example, Paris Convention priority filings can be retrieved by specifying type=priority. The file geoc_app.txt contains location information of applicants. Sources of information (first filings, equivalents, etc.) are thus browsed in reverse order. A detailed data description can be found in de Rassenfosse, Kozak, Seliger 2019: Geocoding of worldwide patent data, published in 'Scientific Data' and available at https://doi.org/10.1038/s41597-019-0264-6. Please note the following: The files geoc_inv_person.txt and geoc_app_person.txt contain person IDs for inventors and applicants, respectively, whenever the location information comes from PATSTAT. If not, the person_id is = 0. These files are not described in the paper. They have been made accessible to improve interoperability with PATSTAT data. Some files had to be zipped in order to upload them to Harvard Dataverse.

文件`geoc_inv.txt`包含专利首次申请的相关标识(对应PATSTAT数据库中的appln_id)、发明人的纬度、经度、城市、地区及国家信息。缺失的坐标已通过等效申请、其他后续申请或申请人位置信息完成补全。该文件还包含一个用于标识信息来源的`source`变量,其取值含义如下: 1: 信息直接来自首次申请本身 2: 信息来自直接等效申请 3: 信息来自其他后续申请 4: 信息来自首次申请中的申请人位置 5: 信息来自等效申请中的申请人位置 6: 信息来自其他后续申请中的申请人位置; 字段`coord_source`用于标注坐标的来源,包括地理定位服务、geonames数据库或PatentsView。 用户可通过字段`type`筛选特定类型的首次申请,例如通过指定`type=priority`即可检索《巴黎公约》优先权申请。 文件`geoc_app.txt`包含申请人的位置信息,其信息来源(首次申请、等效申请等)的检索顺序为反向遍历。 详细的数据说明可参阅de Rassenfosse、Kozak与Seliger于2019年发表于《Scientific Data》的论文《Geocoding of worldwide patent data》,获取链接为https://doi.org/10.1038/s41597-019-0264-6。 请注意以下内容: 文件`geoc_inv_person.txt`与`geoc_app_person.txt`分别存储发明人及申请人的人员ID,仅当位置信息来自PATSTAT数据库时生效,否则`person_id`字段值为0。本文未对这两个文件进行说明,其公开目的在于提升与PATSTAT数据的互操作性。 部分文件已进行压缩,以便上传至Harvard Dataverse(哈佛数据文库)。
提供机构:
Harvard Dataverse
创建时间:
2019-07-23
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集提供了全球专利数据的地理编码信息,包括发明人和申请人的地理位置(如经纬度、城市、地区和国家)。数据来源多样,缺失的坐标数据已通过多种方法填补,并增强了与PATSTAT数据的互操作性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作