five

PM-CRER v1.0

收藏
阿里云天池2026-05-15 更新2026-05-16 收录
下载链接:
https://tianchi.aliyun.com/dataset/226201
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集是首个专门针对故宫博物院文物领域构建的中文实体关系抽取数据集,包含从故宫博物院官网公开获取的文物原始文本描述数据,以及经过人工标注的实体 - 关系 - 实体 (SPO) 三元组数据。数据集覆盖竹木牙角雕刻、金属器、陶瓷器、玉器、书画等多个文物类别,为文化遗产知识图谱构建、文物领域自然语言理解等研究提供了高质量的标注数据。 数据来源 所有原始数据均爬取自故宫博物院官方网站公开的文物藏品信息,经过人工去重、清洗、规范化处理后,由专业标注人员按照统一的标注规范进行实体和关系标注。 数据规模与划分 本数据集共包含7638 条故宫文物完整原始描述信息,按照7:1:2的比例随机划分为训练集、验证集和测试集,具体划分如下: 训练集 (70%):用于模型训练,包含 5347 条文物文本及对应的 SPO 三元组 验证集 (10%):用于模型调优和超参数选择,包含 764 条文物文本及对应的 SPO 三元组 测试集 (20%):用于模型最终性能评估,包含 1527 条文物文本及对应的 SPO 三元组 数据文件说明 Palace_Museum_Cultural_Relics_Data.txt 格式:纯文本格式 内容:包含 7638 条故宫文物的完整原始描述信息,每条数据包含文物唯一编号、文物名称、年代、尺寸、材质、工艺特征、历史背景、收藏信息等字段 编码:UTF-8 PM-CRER-v1.0.json 格式:JSON 格式 内容:标注好的实体关系三元组数据,包含以下字段: text:文物原始文本描述 id:文物唯一编号(完整保留故宫 "故" 字头旧藏和 "新" 字头新征集编号) spo_list:实体关系三元组列表,每个三元组包含subject(主体)、predicate(关系)、object(客体)、subject_type(主体类型)、object_type(客体类型)
提供机构:
阿里云天池
创建时间:
2026-05-09
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
PM-CRER v1.0 是首个专门面向故宫博物院文物领域的中文实体关系抽取数据集,包含从官网公开获取的文物原始文本描述和人工标注的实体-关系-实体三元组数据,覆盖竹木牙角雕刻、金属器等多个类别。该数据集共包含7638条文物描述信息,按7:1:2的比例划分为训练集、验证集和测试集,为文化遗产知识图谱构建和自然语言理解研究提供支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作