five

kwadraten/hi-utokyo-kuzushi

收藏
Hugging Face2026-04-29 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/kwadraten/hi-utokyo-kuzushi
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个基于东京大学史料编纂所HI Lab公开的くずし字(日本古代草书字符)图像数据创建的parquet格式数据集。数据集包含325,261张图像,对应5,896个不同的字符,每张图像都有对应的字符和unicode编码信息。数据集主要用于研究日本古代草书字符的识别和处理。

数据集信息: 特征字段: - 名称:图像(image),数据类型:图像 - 名称:字符(char),数据类型:字符串 - 名称:Unicode编码(unicode),数据类型:字符串 拆分集: - 名称:训练集(train),字节数:2144773177,样本数:325261 下载大小:2144757996字节 数据集存储大小:2144773177字节 配置项: - 配置名称:默认(default),数据文件: - 拆分集:训练集(train),路径:data/train-* 许可证:知识共享署名4.0国际许可协议(CC BY 4.0) 语言:日语(ja) 样本规模分类:10万<样本数<100万 # 东京大学史料编纂所日文草书(Kuzushiji)数据集 本数据集基于东京大学史料编纂所HI Lab(https://lab.hi.u-tokyo.ac.jp/datasets/kuzushiji)公开的图像数据构建,采用Parquet格式存储。 | 统计项目 | 数值 | | --- | --- | | 字符种类 | 5896种 | | 图像样本数 | 325261张 |
提供机构:
kwadraten
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作