five

场景感知交互的跨域推理数据集

收藏
国家基础学科公共科学数据中心2026-04-04 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=69ca9e1ff17560281a739a97&type=1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集面向场景感知交互的跨域推理任务建设,聚焦复杂工业场景下大语言模型的语义理解、关系推理与跨域泛化能力提升需求,针对工业领域知识推理专用数据匮乏的缺口,填补了多场景工业知识推理数据集的空白,对推动大语言模型在工业场景落地、完善工业智能系统逻辑推理能力意义重大,可广泛服务于学术研究、技术研发及工业AI系统优化。 数据集原始数据来源于公开电子产品拆解报告、学术论文产品工艺流程数据及开源硬件数据库模块化设计信息,涵盖各类电子产品及其零部件、芯片型号、生产商、生产工艺等信息。数据经结构化抽取、实体对齐与关系建模构建多模态工业知识图谱,评测集从图谱中采样获得,关系模板由人工编写,训练集通过数据增强结合大模型与知识图谱构建,全程标准化处理确保一致性与可用性。 数据集包含评测集(triple_data.json)、关系模板集(relation_template.json)、训练集(train_full.json)三个核心部分,以标准JSON格式存储,采用一级目录结构,便于快速加载。评测集存储待推理三元组实例,含头实体、尾实体、关系类型等字段;关系模板集提供关系语义定义与正/逆向推理问题模板;训练集采用“instruction-input-output”指令微调格式。数据覆盖BOM、供应链、生产线三大典型工业场景,支持跨关系、跨实体、跨域推理能力评估。 数据体量上,训练集含17005条指令微调样本,评测集含1000条完整工艺三元组与正确选项,关系模板集含36种关系的正/逆向模板及语义定义,规模适配模型训练、性能评估与跨域泛化测试。 该数据集公开共享,支持通用JSON解析工具读取,适用于工业知识驱动的语义推理评测、跨场景泛化分析、问答系统构建等任务,为场景感知交互中的跨域推理研究提供全面、高质量的数据支撑。
提供机构:
北京航空航天大学
二维码
社区交流群
二维码
科研交流群
商业服务