kwadraten/hi-utokyo-kuzushi
收藏Hugging Face2026-04-29 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/kwadraten/hi-utokyo-kuzushi
下载链接
链接失效反馈官方服务:
资源简介:
这是一个基于东京大学史料编纂所HI Lab公开的くずし字(日本古代草书字符)图像数据创建的parquet格式数据集。数据集包含325,261张图像,对应5,896个不同的字符,每张图像都有对应的字符和unicode编码信息。数据集主要用于研究日本古代草书字符的识别和处理。
数据集信息:
特征字段:
- 名称:图像(image),数据类型:图像
- 名称:字符(char),数据类型:字符串
- 名称:Unicode编码(unicode),数据类型:字符串
拆分集:
- 名称:训练集(train),字节数:2144773177,样本数:325261
下载大小:2144757996字节
数据集存储大小:2144773177字节
配置项:
- 配置名称:默认(default),数据文件:
- 拆分集:训练集(train),路径:data/train-*
许可证:知识共享署名4.0国际许可协议(CC BY 4.0)
语言:日语(ja)
样本规模分类:10万<样本数<100万
# 东京大学史料编纂所日文草书(Kuzushiji)数据集
本数据集基于东京大学史料编纂所HI Lab(https://lab.hi.u-tokyo.ac.jp/datasets/kuzushiji)公开的图像数据构建,采用Parquet格式存储。
| 统计项目 | 数值 |
| --- | --- |
| 字符种类 | 5896种 |
| 图像样本数 | 325261张 |
提供机构:
kwadraten



