five

atharvanighot/hindi-verified-tokenized

收藏
Hugging Face2024-12-04 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/atharvanighot/hindi-verified-tokenized
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是ai4bharat/sangraha数据集的重新上传,特别包含了190万行经过验证的印地语数据。这些数据已经使用特定的印地语分词器(atharvanighot/hindi-tokenizer)进行了分词处理,因此可以直接用于训练,因为它是一个预分词的数据集。

This dataset is the reupload of ai4bharat/sangraha dataset. Specifically, 1.9 Million rows of Hindi Verified Data. This is tokenized with Hindi Tokenizer: atharvanighot/hindi-tokenizer such that it can be used to train directly as it is pretokenized dataset.
提供机构:
atharvanighot
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作