five

Fineweb-Instruct

收藏
魔搭社区2025-12-05 更新2025-02-08 收录
下载链接:
https://modelscope.cn/datasets/TIGER-Lab/Fineweb-Instruct
下载链接
链接失效反馈
官方服务:
资源简介:
We convert the pre-training corpus from Fineweb-Edu (https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu) to instruction following format. We select a subset with quality filter and then use GPT-4 to extract instruction-following pairs. The dataset contains roughly 16M instruction pairs. The basic concept is similar to MAmmoTH2 (https://arxiv.org/abs/2405.03548). ![Conversion](conversion.png) ## Citation If you use dataset useful, please cite the following paper: ``` @article{yue2024mammoth2, title={MAmmoTH2: Scaling Instructions from the Web}, author={Yue, Xiang and Zheng, Tuney and Zhang, Ge and Chen, Wenhu}, journal={arXiv preprint arXiv:2405.03548}, year={2024} } ```

我们将来自Fineweb-Edu(https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu)的预训练语料库转换为指令遵循格式。我们通过质量过滤选取了一个子集,随后使用GPT-4提取指令遵循样本对。本数据集共包含约1600万条指令样本对,其核心设计理念与MAmmoTH2(https://arxiv.org/abs/2405.03548)相近。 ![转换流程](conversion.png) ## 引用 若您使用本数据集,请引用如下论文: @article{yue2024mammoth2, title={MAmmoTH2:从网络中扩展指令}, author={Yue, Xiang and Zheng, Tuney and Zhang, Ge and Chen, Wenhu}, journal={arXiv预印本 arXiv:2405.03548}, year={2024} }
提供机构:
maas
创建时间:
2025-02-03
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作