five

baber/WOPTO

收藏
Hugging Face2024-05-14 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/baber/WOPTO
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-4.0 task_categories: - text-generation tags: - legal pretty_name: World Patent Applications size_categories: - 100M<n<1B --- ## World Patent Applications Bibliographic Data The dataset has been exported from [Google Patents Public Data ](https://console.cloud.google.com/marketplace/product/google_patents_public_datasets/google-patents-public-data?project=summer-prism-410714). Includes the bibliographic information, titles and abstracts from worldwide patent applications excluding the United States. The US full-text patent applications are available [here](https://huggingface.co/datasets/baber/USPTO). There are ~100M abstracts in English. Excluding that, the top 10 language counts are: | abstract_language | count | |-------------------|---------| | zh | 6,450,567 | | fr | 4,681,015 | | ko | 4,306,533 | | ja | 3,437,958 | | de | 2,121,303| | ru | 1,300,119| | es | 772,236 | | pt | 610,309 | | tr | 92,354 | | pl | 85,397 |
提供机构:
baber
原始信息汇总

数据集概述

基本信息

  • 许可证: cc-by-4.0
  • 任务类别: 文本生成
  • 标签: 法律
  • 美观名称: 世界专利申请
  • 大小类别: 100M<n<1B

数据内容

  • 数据来源: 从Google Patents Public Data导出
  • 包含内容: 全球专利申请的文献信息、标题和摘要,不包括美国
  • 语言分布:
    • 英文摘要约1亿条
    • 非英文摘要中,前10种语言及其数量如下:
      • 中文: 6,450,567
      • 法语: 4,681,015
      • 韩语: 4,306,533
      • 日语: 3,437,958
      • 德语: 2,121,303
      • 俄语: 1,300,119
      • 西班牙语: 772,236
      • 葡萄牙语: 610,309
      • 土耳其语: 92,354
      • 波兰语: 85,397
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作