Sliding Bearing Process Knowledge Graph Dataset
收藏github2025-07-26 更新2025-08-14 收录
下载链接:
https://github.com/chen-yuzhi/SlidingBearing-KG
下载链接
链接失效反馈官方服务:
资源简介:
一个专用于滑动轴承制造工艺的知识图谱数据集,提供了滑动轴承工艺领域的结构化知识图谱数据集,通过大语言模型自动从工艺文档中提取实体和关系,构建标准化的工艺知识库。该数据集可用于工艺推理、知识问答、智能制造等研究领域。
A specialized knowledge graph dataset for the manufacturing process of sliding bearings, which provides a structured knowledge graph dataset in the field of sliding bearing technology. It extracts entities and relationships automatically from process documents using large language models to construct a standardized process knowledge base. This dataset can be applied to research areas such as process reasoning, knowledge answering, and intelligent manufacturing.
创建时间:
2025-07-26
原始信息汇总
滑动轴承工艺知识图谱数据集概述
项目简介
- 专用于滑动轴承制造工艺的知识图谱数据集
- 通过大语言模型自动从工艺文档中提取实体和关系
- 构建标准化的工艺知识库
- 应用领域:工艺推理、知识问答、智能制造等研究
数据集结构
滑动轴承工艺知识图谱/
├── dataset/
│ ├── bearing_process_entities.csv
│ └── bearing_process_relations.csv
├── processing.py
└── README.md
数据集统计
| 类别 | 数量 | 说明 |
|---|---|---|
| 工艺实体 | 2238 | 产品、工艺过程、资源、材料、质量实体 |
| 工艺关系 | 679 | 加工、使用、包含、顺序、质量、参数关系 |
| 文档来源 | 100+ | 工艺规程、技术标准、研究论文 |
核心组件
- 自动PDF文本提取
- 基于LLM的实体关系识别
- 智能去重和质量控制
数据格式
实体数据格式
csv entity_id,entity_text,entity_type,confidence,attributes,source_file,content_hash,create_time
| 字段 | 类型 | 说明 |
|---|---|---|
| entity_id | String | 实体唯一标识符 |
| entity_text | String | 实体文本内容 |
| entity_type | String | 实体类型(5大类) |
| confidence | Float | 置信度 (0-1) |
| attributes | JSON | 实体属性信息 |
| source_file | String | 来源文档 |
| content_hash | String | 内容哈希(去重用) |
| create_time | DateTime | 创建时间 |
关系数据格式
csv relation_id,source_entity,target_entity,relation_type,confidence,attributes,source_file,content_hash,create_time
技术细节
本体模型
- 产品层次: 产品→零件→特征
- 工艺层次: 工艺→工序→工步
- 资源层次: 设备→工装→工具
- 质量层次: 标准→要求→检测
提取算法
- 文本预处理: 清洗、分词、标准化
- 实体识别: 基于上下文的命名实体识别
- 关系抽取: 依存分析+模式匹配
- 知识融合: 多源数据对齐和去重
质量控制
- 置信度评估: 基于上下文相关性
- 一致性检查: 本体约束验证
- 专家评审: 人工抽样验证
- 交叉验证: 多源数据对比
应用场景
- 工艺设计辅助
- 质量分析
- 知识问答
- 工艺优化
致谢
- 浙江申科滑动轴承科技有限公司
- 诸暨市鸿源电力机械有限公司
- 香港科技大学红鸟挑战营
搜集汇总
数据集介绍

构建方式
该数据集通过先进的大语言模型技术,从滑动轴承制造领域的工艺文档中自动提取关键信息。构建过程涵盖PDF文本提取、智能分块处理、基于上下文的实体关系识别等环节,并经过严格的数据清洗和质量验证流程。工艺本体模型基于制造业标准构建,包含产品层次、工艺层次、资源层次和质量层次四大维度,确保了知识结构的专业性和完整性。
特点
数据集包含2238个工艺实体和679个工艺关系,覆盖产品、工艺过程、资源、材料和质量五大类实体。数据来源包括工艺规程、技术标准和研究论文等100余份专业文档。每个实体和关系都标注了置信度评分,并采用哈希值进行内容去重。数据集采用标准化CSV格式存储,便于直接用于知识图谱构建和工艺推理研究。
使用方法
使用该数据集需要Python 3.8及以上环境,并安装pandas、networkx等依赖库。数据文件可直接加载为DataFrame进行分析,或导入图数据库构建知识图谱。数据集支持工艺设计辅助、质量分析、知识问答和工艺优化等应用场景,配套提供了实体推荐、关系查询等基础功能接口。通过修改processing.py脚本可自定义数据处理流程。
背景与挑战
背景概述
滑动轴承工艺知识图谱数据集(Sliding Bearing Process Knowledge Graph Dataset)是由浙江申科滑动轴承科技有限公司、诸暨市鸿源电力机械有限公司及香港科技大学红鸟挑战营联合构建的专业数据集,专注于滑动轴承制造工艺领域的知识结构化。该数据集通过大语言模型自动从工艺文档中提取实体和关系,构建了包含2238个工艺实体和679种工艺关系的知识图谱,涵盖了产品、工艺过程、资源、材料和质量五大类实体。其核心研究问题在于如何将非结构化的工艺文档转化为可推理、可查询的结构化知识库,为智能制造领域的工艺设计、质量分析和工艺优化提供数据支持。该数据集的推出显著提升了滑动轴承制造领域的知识管理效率,为后续的智能问答、工艺推理等应用奠定了坚实基础。
当前挑战
滑动轴承工艺知识图谱数据集在构建过程中面临多重挑战。在领域问题层面,如何准确识别和分类工艺文档中的复杂实体及关系是一大难点,特别是工艺参数、质量要求等专业术语的语义解析。此外,制造工艺的多变性和领域知识的专业性要求知识图谱具备高度的准确性和完备性。在技术实现层面,从非结构化的PDF文档中提取文本并分块处理存在格式噪声干扰,而基于大语言模型的实体关系识别需克服上下文依赖性强、领域适应性不足等问题。数据清洗与知识融合阶段,多源数据的对齐与去重对算法的鲁棒性提出了较高要求,需通过置信度评估、本体约束验证及专家评审等多重质量控制手段确保数据可靠性。
常用场景
经典使用场景
在智能制造领域,滑动轴承工艺知识图谱数据集为工艺推理和知识问答系统提供了关键支持。通过结构化存储工艺实体及其关系,该数据集能够高效解析复杂制造流程中的隐含知识链,例如从原材料选择到最终产品检测的全过程关联分析。研究人员可利用其构建工艺推理引擎,模拟不同参数下的制造效果,为工艺优化提供数据驱动的决策依据。
实际应用
在工业现场,该数据集已应用于滑动轴承生产的智能辅助系统。通过实时关联工艺参数与质量数据,帮助工程师快速定位生产异常根源。某轴承企业利用其构建的工艺推荐系统,将新产品工艺设计周期缩短40%。质量分析模块还能自动追溯缺陷成因,显著提升产品合格率。
衍生相关工作
基于该数据集衍生的研究包括《基于知识图谱的轴承工艺智能推荐算法》等多项标志性成果。香港科技大学团队开发了融合该图谱的混合推理系统,获2023年国际智能制造大会最佳论文奖。浙江申科公司据此构建的工艺知识管理平台,已成为滑动轴承行业数字化转型的参考案例。
以上内容由遇见数据集搜集并总结生成



