基于GenData V2数据集的大语言模型量化校准数据集

Name: 基于GenData V2数据集的大语言模型量化校准数据集
Creator: 浙江大学
License: 暂无描述

国家基础学科公共科学数据中心2026-01-30 收录

下载链接：

https://nbsdc.cn/general/dataDetail?id=683deadb195d261233189965&type=1

下载链接

链接失效反馈

官方服务：

资源简介：

基于GenDataV2数据集的大语言模型量化校准数据集旨在生成一个高质量的校准数据集，用于量化大语言模型时的精度校准。确保数据集涵盖多样化的文本输入，反映大语言模型在实际应用中的各种输入场景，如对话生成、文本摘要、问答系统等，数据集需要适应不同的任务和场景，特别是那些对量化敏感的任务，确保模型在量化后的各类任务中表现稳定。从互联网获取GenDataV2数据集选取具有代表性的文本数据，这些数据应涵盖各种不同的文本类型和结构，如对话、叙述性文本、技术文档、问答对等。为了确保校准的全面性，从人机对话、自然语言理解、自然语言生成等领域的文本中采样额外数据。数据量预计845KB

提供机构：

浙江大学