作业和运输领域相关专利-中英同族专利短文本平行语料数据集
收藏北京市数据知识产权2026-02-12 更新2026-02-25 收录
下载链接:
https://webs.bjidex.com/sys-bsc-home/#/bscConsole/intellectualProperty/infoPublicity?action=1
下载链接
链接失效反馈官方服务:
资源简介:
本数据集基于中国专利分类号B(作业和运输)相关专利文本,构建了面向中英同族专利的短文本平行语料,以精准刻画专利领域的跨语言对应关系,实现中文与英文的双向即时检索与语义对齐。依托覆盖178个国家/地区、2亿余条专利及10亿+科技情报的全球资源,该数据集在以下领域具有显著应用价值:
1.科技研发与情报获取:
支持以中文或英文进行跨语种检索,利用同族专利的术语特征实现术语对齐与归一化,提高检索的召回率与精确度,减少人工翻译与校对成本。可用于双语检索模型、领域机器翻译及语义嵌入训练,实现高质量语义匹配与排序。
2.知识产权保护与风险预警:
基于句级平行语料可快速识别中英文等价技术点,用于侵权线索发现与早期预警。术语级与句级对齐提升权利要求比对、专利聚类与相似度评估的准确性,助力自动化生成侵权分析与风险报告。借词与音译敏感性建模可避免漏检。
企业战略决策与市场分析:
为企业提供中英双视角的竞争情报与市场趋势分析,支持专利组合比较、技术路线追踪与区域化策略制定。利用平行语料构建可比证据链,支撑基于证据的战略决策,并支持双语自动报告生成,便于多语种团队共享情报成果。
提供机构:
北京八月瓜科技有限公司
搜集汇总
数据集介绍

背景与挑战
背景概述
本数据集聚焦于作业和运输领域的专利,构建了中英同族专利的短文本平行语料,旨在精准刻画跨语言对应关系,支持中文与英文的双向检索和语义对齐。它依托全球专利资源,在科技研发、知识产权保护和企业战略决策等领域具有广泛应用价值,例如提升检索效率、辅助侵权预警和提供双语竞争情报分析。
以上内容由遇见数据集搜集并总结生成



