CASTILLO

Name: CASTILLO
Creator: KTH Royal Institute of Technology, Sweden
Published: 2025-05-23 00:35:33
License: 暂无描述

arXiv2025-05-23 更新2025-05-28 收录

下载链接：

http://arxiv.org/abs/2505.16881v1

下载链接

链接失效反馈

官方服务：

资源简介：

CASTILLO数据集旨在表征大型语言模型（LLM）的响应长度分布，涵盖13个广泛使用的开源LLM和7个指令遵循数据集。该数据集通过固定解码超参数为每个 ⟨prompt, model⟩ 样本对生成10个独立的完成结果，并记录每个响应的token长度。数据集包含了摘要统计（均值、标准差、百分位数）、最短和最长的完成结果以及确切的生成设置。CASTILLO数据集可用于开发预测模型以实现主动调度，并提供一个系统的框架来分析特定模型的行为。数据集和代码已公开发布，以促进生成语言建模和系统之间的研究。

The CASTILLO dataset is designed to characterize the response length distribution of large language models (LLMs), encompassing 13 widely used open-source LLMs and 7 instruction-following datasets. For each ⟨prompt, model⟩ sample pair, the dataset generates 10 independent completion results by fixing the decoding hyperparameters, and records the token length of every generated response. The dataset contains summary statistics including mean, standard deviation, and percentiles, alongside the shortest and longest completion results, as well as the exact generation configurations. The CASTILLO dataset can be leveraged to develop predictive models for proactive scheduling, and offers a systematic framework for analyzing the behavioral patterns of specific LLMs. Finally, the dataset and accompanying code have been publicly released to facilitate research in generative language modeling and cross-system studies.

提供机构：

KTH Royal Institute of Technology, Sweden

创建时间：

2025-05-23

搜集汇总

数据集介绍

构建方式

CASTILLO数据集通过系统化的方法构建，涵盖了13种广泛使用的开源大型语言模型（LLM）和7个不同的指令遵循语料库。对于每个〈提示, 模型〉样本对，研究团队生成了10个独立的完成文本，使用固定的解码超参数，并记录了每个响应的令牌长度。此外，还发布了汇总统计信息（均值、标准差、百分位数），以及最短和最长的完成文本，确保证据的全面性和可复现性。

使用方法

CASTILLO数据集可用于多种研究场景，包括开发预测模型以优化LLM推理资源分配、比较不同模型的生成行为、检测和过滤文本退化现象，以及作为系统级研究的模拟后端。数据集的结构化设计和丰富统计信息使其成为生成语言模型与系统交叉研究的宝贵资源。

背景与挑战

背景概述

CASTILLO数据集由KTH皇家理工学院的研究团队于2025年创建，旨在解决大型语言模型(LLM)推理过程中响应长度预测的关键问题。该数据集系统性地记录了13种主流开源LLM在7种不同指令遵循语料库上的响应长度分布特性，为研究模型生成行为的可变性提供了实证基础。数据集通过固定解码参数生成10个独立响应，捕获了模型间和模型内响应长度的显著差异，揭示了即使在相同生成条件下LLM输出仍存在高度不确定性的现象。CASTILLO的发布为生成式语言模型与系统优化的交叉研究建立了标准化基准，特别在资源预分配和推理调度等关键应用场景展现出重要价值。

当前挑战

CASTILLO数据集主要面临三方面挑战：首先，在领域问题层面，LLM响应长度的固有随机性导致传统基于提示的预测方法准确率受限，不同模型对相同提示可能产生数百个token的响应差异；其次，构建过程中需处理模型生成的不稳定性，约6.5%的样本出现文本退化现象（如重复、不连贯或异常冗长），需设计双重过滤机制进行数据清洗；最后，多模型多数据集的组合带来计算复杂性挑战，需在15000token的生成上限与GPU内存限制间取得平衡，同时保持对原始语料长度分布的覆盖性。这些挑战突显了LLM输出行为建模的系统级难度。

常用场景

经典使用场景

CASTILLO数据集在大型语言模型（LLM）推理资源管理领域具有经典应用场景。通过系统性地记录和分析13种开源LLM在7种指令遵循语料库上的响应长度分布，该数据集为研究者提供了量化模型生成行为变异性的基准工具。其核心价值体现在对固定解码参数下同一提示多次生成结果的统计建模，包括响应长度的均值、标准差、百分位数等指标，为理解模型间和模型内生成差异提供了数据支撑。

解决学术问题

该数据集有效解决了LLM推理系统中响应长度预测的学术难题。传统方法或引入长度偏差，或忽略模型与提示的特异性变异，而CASTILLO通过实证数据揭示了即使在相同生成设置下，不同模型对同一提示的响应长度仍存在显著差异（标准差可达均值45%）。这为开发不依赖强假设的预测模型提供了训练基础，同时其记录的文本退化案例（如重复、不连贯）为生成稳定性研究提供了新维度。

实际应用

在实际系统中，CASTILLO支持推理基础设施的主动资源调度。云服务商可利用其统计特征预分配GPU内存和计算资源，避免传统反应式调度造成的延迟波动。例如，基于响应长度百分位数可优化KV缓存分配策略，将长尾请求隔离至专用计算节点。数据集包含的代码生成任务（如APPS、DS-1000）响应模式，特别适用于优化AI编程助手的服务等级协议（SLA）。

数据集最近研究