five

MusubiAI/FinePDFs-zh

收藏
Hugging Face2025-10-01 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/MusubiAI/FinePDFs-zh
下载链接
链接失效反馈
官方服务:
资源简介:
FinePDFs-zh是一个从FinePDFs的cmn_Hani子集中派生出的细粒度分类PDF数据集。它包括繁体中文、简体中文、粤语、繁体中文经典和简体中文经典五种语言类别的样本。每个样本都使用MusubiAI/ZHLID模型进行了分类。数据集规模在1M到10M之间,并提供有训练集和测试集。

FinePDFs-zh is a fine-grained classified PDF dataset derived from the cmn_Hani subset of FinePDFs. It includes samples in Traditional Chinese, Simplified Chinese, Cantonese, Classical Chinese (Traditional), and Classical Chinese (Simplified). Each sample is classified using the MusubiAI/ZHLID model. The dataset size ranges from 1M to 10M and provides both training and test sets.
提供机构:
MusubiAI
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作