面向古文研究的预训练数据集
收藏中国科技资源共享网2026-06-09 更新2026-01-30 收录
下载链接:
https://escience.org.cn/metadata/detail?cstrId=CSTR:16666.11.nbsdc.gqpm7ihn&id=2ce818534b401c7fa2f2b28d816e5c73:CSTR:16666.11.nbsdc.gqpm7ihn
下载链接
链接失效反馈官方服务:
资源简介:
面向古文研究的预训练数据集主要面向古文研究,为其与自然语言处理的结合提供支持,基于殆知阁古代文献语料训练,GuwenBERT的词表是基于古文语料构建的,取其中高频字符,大小为2GB。
提供机构:
国家基础学科公共科学数据中心
创建时间:
2023-10-08



