five

0-hero/Matter-0.1

收藏
Hugging Face2024-03-21 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/0-hero/Matter-0.1
下载链接
链接失效反馈
官方服务:
资源简介:
Matter 0.1数据集是从35个其他数据集中精选的高质量记录,特别是从prompt-perfect数据集中提取的。该数据集包含了所有评分为5的记录,并进行了去重和去污染处理。数据集的大小约为1.4B tokens和2.5M条记录。该数据集旨在通过微调模型的各种子集和组合来创建性能最佳的v1数据集。

Matter 0.1数据集是从35个其他数据集中精选的高质量记录,特别是从prompt-perfect数据集中提取的。该数据集包含了所有评分为5的记录,并进行了去重和去污染处理。数据集的大小约为1.4B tokens和2.5M条记录。该数据集旨在通过微调模型的各种子集和组合来创建性能最佳的v1数据集。
提供机构:
0-hero
原始信息汇总

Matter 0.1 数据集概述

数据来源

  • 数据集是从35个其他数据集中精选的高质量记录,特别是从prompt-perfect中提取的评分5分的记录。

数据规模

  • 数据集包含约14亿个令牌和约250万条记录。

数据处理

下载命令

  • 使用以下命令下载数据集,以避免不必要的文件: python from huggingface_hub import snapshot_download

snapshot_download(repo_id="0-hero/Matter-0.1", repo_type="dataset", allow_patterns=["final_set_cleaned/*"], local_dir=".", local_dir_use_symlinks=False)

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作