0-hero/Matter-0.1
收藏Hugging Face2024-03-21 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/0-hero/Matter-0.1
下载链接
链接失效反馈官方服务:
资源简介:
Matter 0.1数据集是从35个其他数据集中精选的高质量记录,特别是从prompt-perfect数据集中提取的。该数据集包含了所有评分为5的记录,并进行了去重和去污染处理。数据集的大小约为1.4B tokens和2.5M条记录。该数据集旨在通过微调模型的各种子集和组合来创建性能最佳的v1数据集。
Matter 0.1数据集是从35个其他数据集中精选的高质量记录,特别是从prompt-perfect数据集中提取的。该数据集包含了所有评分为5的记录,并进行了去重和去污染处理。数据集的大小约为1.4B tokens和2.5M条记录。该数据集旨在通过微调模型的各种子集和组合来创建性能最佳的v1数据集。
提供机构:
0-hero
原始信息汇总
Matter 0.1 数据集概述
数据来源
- 数据集是从35个其他数据集中精选的高质量记录,特别是从prompt-perfect中提取的评分5分的记录。
数据规模
- 数据集包含约14亿个令牌和约250万条记录。
数据处理
- 数据已经去重和去污染处理,使用了Jon Durbin的bagel脚本进行处理。
下载命令
- 使用以下命令下载数据集,以避免不必要的文件: python from huggingface_hub import snapshot_download
snapshot_download(repo_id="0-hero/Matter-0.1", repo_type="dataset", allow_patterns=["final_set_cleaned/*"], local_dir=".", local_dir_use_symlinks=False)



