five

sfc-gh-goliaro/kb-nano-decode-heavy

收藏
Hugging Face2026-04-22 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/sfc-gh-goliaro/kb-nano-decode-heavy
下载链接
链接失效反馈
官方服务:
资源简介:
kb-nano的decode-heavy工作负载是一个预计算的大型语言模型(LLM)吞吐量基准测试数据集,用于kb_nano项目的bench_vllm.py测试。数据集来源于open-thoughts/OpenThoughts-114k,使用meta-llama/Llama-3.1-8B-Instruct作为参考分词器进行过滤和统计。包含500个请求,每个请求的提示词和生成文本分别有1024和2048个token的长度限制。数据集以原始文本形式存储,允许基准测试运行器使用任何模型的分词器重新分词。数据集包含聊天历史、助手文本、来源ID和是否超过构建时限制的标记等信息。

The kb-nano `decode-heavy` workload is a precomputed LLM throughput-benchmark workload used by `kb_nano`s `tests/bench_vllm.py`. The source dataset is `open-thoughts/OpenThoughts-114k`, and it uses `meta-llama/Llama-3.1-8B-Instruct` as the reference tokenizer for filtering and statistics. It contains 500 requests with prompt and decode caps of 1024 and 2048 tokens respectively. The chat content is stored as raw text to allow re-tokenization with any models tokenizer. Each row includes chat history, assistant text, source ID, and a flag for oversized prompts at build time.
提供机构:
sfc-gh-goliaro
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作