five

中华传统文化知识图谱实体本体数据

收藏
浙江省数据知识产权登记平台2026-04-10 更新2026-05-09 收录
下载链接:
https://www.zjip.org.cn/home/announce/trends/8437378
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集旨在为中华优秀传统文化领域大语言模型及智能应用提供高质量、结构化、可追溯的实体知识基座。具体应用包括:1. 大模型领域知识注入与精调:作为高质量SFT数据,用于对齐和优化传统文化垂域LLM的参数,使其在生成关于典籍、人物、器物等实体的解释时,能严格基于权威出处输出结构化知识,有效抑制事实性幻觉。2. 文化智能应用开发:可作为文化教育App、数字文博导览、文创内容生成等应用的底层知识库,支撑实体查询、关系探索、智能问答等功能。加工前的数据说明:原始数据是中华传统文化相关书籍的pdf文件(来源于开源古籍数字化平台“Anna’s Archive”),总大小约1107MB,包含约550万文字。
处理规则:数据处理采用“OCR识别-大模型初筛-规则归因-专家校准”的混合流水线。首先,使用paddleocr框架得到文本数据,分块后,利用本地化部署的大语言模型(Qwen2.5-14B)进行命名实体识别。将实体类别定义为十大类,概念、器具、书籍、人物、属性、物产、地名、材料、时间、机构,该定义源于对初步抽取结果的聚类分析与领域专家共同制定的分类体系,确保类别覆盖全面且符合学术规范。随后,通过基于正则表达式的规则匹配算法,将每个识别出的实体精准锚定回其在原文中的具体句子及位置坐标,强制建立“实体-证据原句-文献出处”的可追溯链接。最后,经过实体聚合、去重与名称标准化后,将生成的实体列表导出至协作平台,由资深领域专家进行集中审阅、类别校正与解释优化,形成最终本体。
数据内容描述:最终产出超过10万条高质量的中华传统文化实体数据记录。每条记录为一个结构化的数据实体,包含以下核心字段:1) id:唯一标识符;2) 标准名称:实体的规范化名称;3) 字符长度:标准名称的字符数;4) 原始名称:从原文中识别出的所有同义或相关表述(以“|||”或“,”分隔);5) 类别:实体所属的十个类别之一,在上述处理规则部分已进行阐述;6) 解释:根据原句总结生成的定义与描述;7) 原句:实体在文献中出现的关键证据句子(通常为1-3句,以“|||”分隔);8) 文献出处:实体来源的古籍;9) 归属:实体所属的传统文化细分领域(如茶道、花道、香道)。该数据集构成了一套可机读、可验证、具备学术严谨性的中华传统文化实体“标准身份证”库。
提供机构:
浙江大学长三角智慧绿洲创新中心,林洺锋,范志忠,刘俊,林玮,吴昱苇
创建时间:
2026-02-07
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是中华传统文化知识图谱实体本体数据,通过OCR、大语言模型和专家校准的混合流水线,从古籍中提取超过10万条结构化实体记录,涵盖概念、器具、书籍等十大类别。每条数据包含标准名称、原始名称、解释、原句及文献出处,形成可追溯的实体知识库,适用于大语言模型领域知识注入与文化智能应用开发,并已通过区块链存证确保数据可信。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作