five

catherinearnett/monolingual-tokenizer-data

收藏
Hugging Face2025-05-15 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/catherinearnett/monolingual-tokenizer-data
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc0-1.0 source_datasets: - oscar-corpus/OSCAR-2301 --- Todo: * add language to metadata * cite source and explain sampling

许可证:CC0-1.0 源数据集: - OSCAR语料库项目(oscar-corpus)/OSCAR-2301 待办事项: * 为元数据添加语言标注信息 * 标注数据源并说明采样规则
提供机构:
catherinearnett
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作