five

纺织和造纸领域相关专利-中英同族专利短文本平行语料数据集

收藏
北京市数据知识产权2026-01-28 更新2026-01-29 收录
下载链接:
https://webs.bjidex.com/sys-bsc-home/#/bscConsole/intellectualProperty/infoPublicity?action=1
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集基于中国专利分类号D(纺织和造纸)相关专利文本,构建了面向中英同族专利的短文本平行语料,以精准刻画专利领域的跨语言对应关系,实现中文与英文的双向即时检索与语义对齐。依托覆盖178个国家/地区、2亿余条专利及10亿+科技情报的全球资源,该数据集在以下领域具有显著应用价值: 1.科技研发与情报获取: 支持以中文或英文进行跨语种检索,利用同族专利的术语特征实现术语对齐与归一化,提高检索的召回率与精确度,减少人工翻译与校对成本。可用于双语检索模型、领域机器翻译及语义嵌入训练,实现高质量语义匹配与排序。 2.知识产权保护与风险预警: 基于句级平行语料可快速识别中英文等价技术点,用于侵权线索发现与早期预警。术语级与句级对齐提升权利要求比对、专利聚类与相似度评估的准确性,助力自动化生成侵权分析与风险报告。借词与音译敏感性建模可避免漏检。 企业战略决策与市场分析: 为企业提供中英双视角的竞争情报与市场趋势分析,支持专利组合比较、技术路线追踪与区域化策略制定。利用平行语料构建可比证据链,支撑基于证据的战略决策,并支持双语自动报告生成,便于多语种团队共享情报成果。
提供机构:
北京八月瓜科技有限公司
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个专注于纺织和造纸领域的专利文本资源,包含中英文同族专利的短文本平行语料,适用于跨语言信息检索、机器翻译或自然语言处理任务。它提供了专业领域的双语对照数据,有助于支持相关技术的研究和应用开发。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务