five

archit11/hyperswitch-token-aware-cpt-fixed

收藏
Hugging Face2025-11-07 更新2025-11-15 收录
下载链接:
https://hf-mirror.com/datasets/archit11/hyperswitch-token-aware-cpt-fixed
下载链接
链接失效反馈
官方服务:
资源简介:
Hyperswitch Token-Aware CPT数据集包含来自Hyperswitch支付路由器项目的1076个Rust代码样本,这些样本经过优化,适用于使用Kwaipilot/KAT-Dev分词器的持续预训练(CPT)。数据集的样本包括不同大小的代码片段,从单个大文件到整个小型crate,并且每个样本都包含了路径和元数据信息。

The Hyperswitch Token-Aware CPT dataset contains 1,076 Rust code samples from the Hyperswitch payment router project, optimized for Continued Pre-Training (CPT) with the Kwaipilot/KAT-Dev tokenizer. The samples in the dataset range from single large files to entire small crates, and each sample includes path and metadata information.
提供机构:
archit11
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作