five

froggeric/imatrix

收藏
Hugging Face2024-04-15 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/froggeric/imatrix
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个用于生成重要性矩阵的输入文件,涵盖了多种语言和领域,如英语、多语言、代码、技术写作等。这些文件包括但不限于PTB、WikiText、C4、代码、多语言、技术写作、短故事等。每个文件都有其特定的用途和优势,例如PTB数据集是手动整理的,适合用于重要性矩阵训练;WikiText数据集则包含从维基百科中提取的完整文章,适合利用长期依赖关系的模型。此外,还提供了如何使用这些文件进行模型量化的详细步骤。

该数据集包含多个用于生成重要性矩阵的输入文件,涵盖了多种语言和领域,如英语、多语言、代码、技术写作等。这些文件包括但不限于PTB、WikiText、C4、代码、多语言、技术写作、短故事等。每个文件都有其特定的用途和优势,例如PTB数据集是手动整理的,适合用于重要性矩阵训练;WikiText数据集则包含从维基百科中提取的完整文章,适合利用长期依赖关系的模型。此外,还提供了如何使用这些文件进行模型量化的详细步骤。
提供机构:
froggeric
原始信息汇总

数据集概述

输入文件描述

社区提供的文件

  • groups_merged

    • 描述:一个通用目的的矩阵校准数据集,包含约30k个令牌,包括编程示例,比WikiText更多样化。
    • 来源:社区贡献
  • group_10_merged

    • 描述:约50k个伪随机令牌,用于7b模型的量化时表现最佳。
    • 来源:社区贡献
  • 20k_random_data

    • 描述:已被group_10_merged取代。
    • 来源:社区贡献
  • 8k_random_data

    • 描述:已被20k_random_data取代。
    • 来源:社区贡献
  • badwords

    • 描述:包含402个英语不良词汇,用于移除防护栏。
    • 来源:Shutterstock github repo
  • badwords_multilingual

    • 描述:包含2580个多语言不良词汇,涵盖26种语言,用于移除防护栏。
    • 来源:Shutterstock github repo
  • ptb.train

    • 描述:Penn Treebank数据集,用于语言训练,已被WikiText取代。
    • 来源:Penn Treebank
  • WikiText

    • 描述:包含超过1亿个令牌的维基百科语言建模数据集,适用于利用长期依赖的模型。
    • 来源:维基百科
  • WikiText_FR

    • 描述:包含7000万个令牌的法语维基百科文章数据集。
    • 来源:维基百科
  • c4

    • 描述:从公共Common Crawl网络抓取中提取的文本数据集,仅包含英语。
    • 来源:Common Crawl
  • code

    • 描述:编程相关数据。
    • 来源:exllamav2
  • multilingual

    • 描述:包含多种语言的数据集。
    • 来源:exllamav2
  • technical

    • 描述:技术写作相关数据。
    • 来源:exllamav2
  • tiny

    • 描述:非常短的故事数据集。
    • 来源:TinyStories dataset
  • wiki

    • 描述:小型维基百科转储数据集,包含许多不需要的标签。
    • 来源:exllamav2

预计算矩阵文件

  • Joseph717171/Imatrices

    • 描述:包含从7B到17B模型的多个矩阵文件。
    • 来源:社区贡献
  • ikawrakow/imatrix-from-wiki-train

    • 描述:基于wiki.train.raw训练的基础模型(lama, mistral, nous-hermes, qwen)的矩阵文件。
    • 来源:社区贡献
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作