five

Domain ontology for text mining of Portuguese language patents

收藏
DataCite Commons2026-03-02 更新2026-05-04 收录
下载链接:
https://osf.io/cbaef/
下载链接
链接失效反馈
官方服务:
资源简介:
A domain ontology was developed to integrate concepts from the Theory of Inventive Problem Solving (TRIZ) and support the mining of patent texts written in Portuguese. It systematizes terms related to physical effects drawn from diverse scientific disciplines and engineering fields, structuring this knowledge into classes, subclasses, and instances. The instances associated with each subclass serve as grammatical markers that can be leveraged by NLP tools to extract semantically related terms within the specific context of patents. The ontology’s terminology aligns with the technical vocabulary commonly found in patents, which enhances precision and reduces ambiguity. This approach has the potential to lessen reliance on large training datasets, often a costly and complex requirement in text mining processes. Initially, the ontology comprised 11,196 entries, each represented as a ternary relationship integrating the Task, Object, and Physical Effects subclasses. Since its creation, the vocabulary has been continuously expanded and updated in response to practical applications in patent text mining. ------------------------ Ontologia de domínio que integra conceitos da Teoria da Resolução Inventiva de Problemas (TRIZ), com o propósito de apoiar a mineração de textos de patentes redigidos em português. Sistematiza termos relacionados a efeitos físicos provenientes de diversas disciplinas científicas e áreas da engenharia, organizando o conhecimento em classes, subclasses e instâncias. As instâncias associadas às subclasses funcionam como marcadores gramaticais exploráveis por ferramentas de PLN, permitindo a extração de termos semanticamente relacionados no contexto específico das patentes. Os termos da ontologia são aderentes ao vocabulário técnico recorrente em patentes. Tal abordagem tem potencial para reduzir a dependência de grandes conjuntos de dados de treinamento, frequentemente responsáveis por tornar os processos de mineração de texto onerosos e complexos. Originalmente, a ontologia apresenta 11.196 entradas, cada uma representada como um relacionamento ternário que integra as subclasses Tarefa, Objeto e Efeitos Físicos. No entanto, a lista de termos vem sendo expandida e atualizada à medida que utilizada em tarefas de mineração textual de patentes.
提供机构:
OSF
创建时间:
2025-09-27
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作