five

jhu-clsp/ettin-pretraining-data

收藏
Hugging Face2025-07-18 更新2025-08-09 收录
下载链接:
https://hf-mirror.com/datasets/jhu-clsp/ettin-pretraining-data
下载链接
链接失效反馈
官方服务:
资源简介:
Ettin预训练数据集包含了用于训练Ettin编码器和解码器模型的预训练阶段数据。数据集由多样化的数据混合而成,总共有1.7T tokens,包括高质量的网页爬取数据、Common Crawl头部文档、代码仓库和文件、社交媒体讨论线程、科学论文、学术预印本、问答论坛、指令跟随数据、数学内容等。数据以MDS格式提供,适用于Composer和ModernBERT训练库。

The Ettin Pre-training Data contains the pre-training phase data used to train all Ettin encoder and decoder models. The dataset consists of a diverse mixture of data sources totaling 1.7T tokens, including high-quality web crawl data, Common Crawl head documents, code repositories and files, social discussion threads, scientific papers, academic preprints, Q&A forums, instruction-following data, mathematical content, and more. The data is provided in MDS format, suitable for use with Composer and ModernBERT training libraries.
提供机构:
jhu-clsp
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作