kp7742/YALM-pretrain-20M

Name: kp7742/YALM-pretrain-20M
Creator: kp7742
Published: 2025-03-16 22:55:34
License: 暂无描述

Hugging Face2025-03-16 更新2025-04-12 收录

下载链接：

https://hf-mirror.com/datasets/kp7742/YALM-pretrain-20M

下载链接

链接失效反馈

官方服务：

资源简介：

YALM预训练数据集是一个包含约2000万样本的英语、印地语和混合语（Hinglish）的数据集，来源于不同的数据集，用于语言建模任务和YALM（Yet Another Language Model）模型的开发。

The YALM Pretraining Data is a mix of English, Hindi, and Hinglish with approximately 20 million samples, sourced from various datasets for language modeling tasks and the development of the YALM (Yet Another Language Model).

提供机构：

kp7742

5,000+

优质数据集

54 个

任务类型

进入经典数据集