five

数据堂—500万条中文专利解析数据

收藏
魔搭社区2026-04-26 更新2024-11-16 收录
下载链接:
https://modelscope.cn/datasets/DatatangBeijing/50000000piecesofanalyzedChinesepatentdata
下载链接
链接失效反馈
官方服务:
资源简介:
# 数据堂500万条中文专利解析数据 ## 数据集描述 ## 数据集的格式和结构 ### 数据格式 原版专利数据为PDF格式,解析后内容为json格式,解析文件图片为png格式 ### 数据规模 5,000万条 ### 内容 自2,019年以后开放的中文专利数据 ### 解析内容 PDF文件内容均已转换为文本字符,公式表格以latex格式存储,图片保存在本地文件夹并在json中以链接形式展示 ### 领域分类 专利数据记录了IPC分类编号,数据包含了计算机、通信、芯片、地理、工程、经济、人文、社科、生物、数学、医学等多个学科内容 ## 数据集版权信息 版权归数据堂所有,商用数据。 ## 其他相关信息 详见https://www.datatang.com/dataset/1571?source=modelscope

# 50,000,000 Chinese Patent Parsed Data from Datatang ## Dataset Description ## Dataset Format and Structure ### Data Format The original patent data is in PDF format. The parsed content is stored in JSON format, and the images extracted from the parsed files are in PNG format. ### Data Scale 50,000,000 entries ### Content Chinese patent data publicly available since 2019 ### Parsed Content All content from the PDF files has been converted into plain text characters. Formulas and tables are stored in LaTeX format. Images are saved in local directories and presented as hyperlinks within the JSON files. ### Domain Classification Each patent record includes an IPC classification number, and the dataset covers multiple academic disciplines including computer science, communications, semiconductors, geography, engineering, economics, humanities, social sciences, biology, mathematics, medicine, and more. ## Dataset Copyright Information All copyrights are owned by Datatang. This is commercial data. ## Additional Relevant Information For more details, please refer to https://www.datatang.com/dataset/1571?source=modelscope
提供机构:
maas
创建时间:
2024-11-07
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含5000万条自2019年以来的中文专利数据,原始PDF文件被解析为JSON文本和PNG图像格式。专利覆盖计算机科学、通信、医学等多个学科领域,由DataTang拥有版权并可用于商业用途。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务