five

Korea-MES/Mixtral-Upperbound-V4

收藏
Hugging Face2025-12-15 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/Korea-MES/Mixtral-Upperbound-V4
下载链接
链接失效反馈
官方服务:
资源简介:
Mixtral-Upperbound-V4数据集是Token-Upperbound-V3的增强版本,增加了高质量的数学数据。具体改进包括:1) 添加了MetaMath数据,提供高质量的数学推理样本;2) 移除了MetaMathQA_GSM源,消除了冗余和低质量的GSM样本;3) 提供了更好的数学覆盖范围,包含更多样化的数学问题;4) 保持了MLT分布的平衡。数据集结构包括问题、答案、上下文、MLT标签和数据源标识等特征。MLT标签分为10个级别,用于细粒度的长度控制。数据集包含956,875个训练样本和2,000个测试样本,测试集在每个MLT标签上平衡分布。

Mixtral-Upperbound-V4 is an enhanced version of Token-Upperbound-V3 with additional high-quality math data. Key improvements include: 1) Added MetaMath data - high-quality mathematical reasoning samples; 2) Removed MetaMathQA_GSM - eliminated redundancy and lower-quality GSM samples; 3) Better math coverage - more diverse mathematical problems; 4) Maintained balance - MLT distribution remains balanced. The dataset features include question, answer, context, MLT tags, and source identifiers. MLT tags are divided into 10 levels for fine-grained length control. The dataset contains 956,875 training samples and 2,000 test samples, with the test set balanced across all MLT tags.
提供机构:
Korea-MES
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作