froggeric/imatrix
收藏Hugging Face2024-04-15 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/froggeric/imatrix
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个用于生成重要性矩阵的输入文件,涵盖了多种语言和领域,如英语、多语言、代码、技术写作等。这些文件包括但不限于PTB、WikiText、C4、代码、多语言、技术写作、短故事等。每个文件都有其特定的用途和优势,例如PTB数据集是手动整理的,适合用于重要性矩阵训练;WikiText数据集则包含从维基百科中提取的完整文章,适合利用长期依赖关系的模型。此外,还提供了如何使用这些文件进行模型量化的详细步骤。
该数据集包含多个用于生成重要性矩阵的输入文件,涵盖了多种语言和领域,如英语、多语言、代码、技术写作等。这些文件包括但不限于PTB、WikiText、C4、代码、多语言、技术写作、短故事等。每个文件都有其特定的用途和优势,例如PTB数据集是手动整理的,适合用于重要性矩阵训练;WikiText数据集则包含从维基百科中提取的完整文章,适合利用长期依赖关系的模型。此外,还提供了如何使用这些文件进行模型量化的详细步骤。
提供机构:
froggeric
原始信息汇总
数据集概述
输入文件描述
社区提供的文件
-
groups_merged
- 描述:一个通用目的的矩阵校准数据集,包含约30k个令牌,包括编程示例,比WikiText更多样化。
- 来源:社区贡献
-
group_10_merged
- 描述:约50k个伪随机令牌,用于7b模型的量化时表现最佳。
- 来源:社区贡献
-
20k_random_data
- 描述:已被group_10_merged取代。
- 来源:社区贡献
-
8k_random_data
- 描述:已被20k_random_data取代。
- 来源:社区贡献
-
badwords
- 描述:包含402个英语不良词汇,用于移除防护栏。
- 来源:Shutterstock github repo
-
badwords_multilingual
- 描述:包含2580个多语言不良词汇,涵盖26种语言,用于移除防护栏。
- 来源:Shutterstock github repo
-
ptb.train
- 描述:Penn Treebank数据集,用于语言训练,已被WikiText取代。
- 来源:Penn Treebank
-
WikiText
- 描述:包含超过1亿个令牌的维基百科语言建模数据集,适用于利用长期依赖的模型。
- 来源:维基百科
-
WikiText_FR
- 描述:包含7000万个令牌的法语维基百科文章数据集。
- 来源:维基百科
-
c4
- 描述:从公共Common Crawl网络抓取中提取的文本数据集,仅包含英语。
- 来源:Common Crawl
-
code
- 描述:编程相关数据。
- 来源:exllamav2
-
multilingual
- 描述:包含多种语言的数据集。
- 来源:exllamav2
-
technical
- 描述:技术写作相关数据。
- 来源:exllamav2
-
tiny
- 描述:非常短的故事数据集。
- 来源:TinyStories dataset
-
wiki
- 描述:小型维基百科转储数据集,包含许多不需要的标签。
- 来源:exllamav2
预计算矩阵文件
-
Joseph717171/Imatrices
- 描述:包含从7B到17B模型的多个矩阵文件。
- 来源:社区贡献
-
ikawrakow/imatrix-from-wiki-train
- 描述:基于
wiki.train.raw训练的基础模型(lama, mistral, nous-hermes, qwen)的矩阵文件。 - 来源:社区贡献
- 描述:基于



