froggeric/imatrix

Name: froggeric/imatrix
Creator: froggeric
Published: 2024-04-15 09:11:39
License: 暂无描述

Hugging Face2024-04-15 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/froggeric/imatrix

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个用于生成重要性矩阵的输入文件，涵盖了多种语言和领域，如英语、多语言、代码、技术写作等。这些文件包括但不限于PTB、WikiText、C4、代码、多语言、技术写作、短故事等。每个文件都有其特定的用途和优势，例如PTB数据集是手动整理的，适合用于重要性矩阵训练；WikiText数据集则包含从维基百科中提取的完整文章，适合利用长期依赖关系的模型。此外，还提供了如何使用这些文件进行模型量化的详细步骤。

提供机构：

froggeric

原始信息汇总

数据集概述

输入文件描述

社区提供的文件

groups_merged
- 描述：一个通用目的的矩阵校准数据集，包含约30k个令牌，包括编程示例，比WikiText更多样化。
- 来源：社区贡献
group_10_merged
- 描述：约50k个伪随机令牌，用于7b模型的量化时表现最佳。
- 来源：社区贡献
20k_random_data
- 描述：已被group_10_merged取代。
- 来源：社区贡献
8k_random_data
- 描述：已被20k_random_data取代。
- 来源：社区贡献
badwords
- 描述：包含402个英语不良词汇，用于移除防护栏。
- 来源：Shutterstock github repo
badwords_multilingual
- 描述：包含2580个多语言不良词汇，涵盖26种语言，用于移除防护栏。
- 来源：Shutterstock github repo
ptb.train
- 描述：Penn Treebank数据集，用于语言训练，已被WikiText取代。
- 来源：Penn Treebank
WikiText
- 描述：包含超过1亿个令牌的维基百科语言建模数据集，适用于利用长期依赖的模型。
- 来源：维基百科
WikiText_FR
- 描述：包含7000万个令牌的法语维基百科文章数据集。
- 来源：维基百科
c4
- 描述：从公共Common Crawl网络抓取中提取的文本数据集，仅包含英语。
- 来源：Common Crawl
code
- 描述：编程相关数据。
- 来源：exllamav2
multilingual
- 描述：包含多种语言的数据集。
- 来源：exllamav2
technical
- 描述：技术写作相关数据。
- 来源：exllamav2
tiny
- 描述：非常短的故事数据集。
- 来源：TinyStories dataset
wiki
- 描述：小型维基百科转储数据集，包含许多不需要的标签。
- 来源：exllamav2

预计算矩阵文件

Joseph717171/Imatrices
- 描述：包含从7B到17B模型的多个矩阵文件。
- 来源：社区贡献
ikawrakow/imatrix-from-wiki-train
- 描述：基于wiki.train.raw训练的基础模型（lama, mistral, nous-hermes, qwen）的矩阵文件。
- 来源：社区贡献

5,000+

优质数据集

54 个

任务类型

进入经典数据集