five

sfc-gh-goliaro/kb-nano-balanced

收藏
Hugging Face2026-04-22 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/sfc-gh-goliaro/kb-nano-balanced
下载链接
链接失效反馈
官方服务:
资源简介:
kb-nano `balanced`工作负载是一个预计算的大型语言模型(LLM)吞吐量基准测试工作负载数据集,用于`kb_nano`项目的`tests/bench_vllm.py`测试。数据集来源于`allenai/WildChat-1M`,使用`meta-llama/Llama-3.1-8B-Instruct`作为参考分词器进行过滤和统计。数据集包含1000个请求,每个请求的提示令牌数在256到1024之间,解码令牌数上限为1024,下限为256。数据集以原始文本形式存储,允许基准测试运行器使用任何模型的分词器重新分词。数据集还提供了详细的令牌长度统计信息和模式描述。

The kb-nano `balanced` workload is a precomputed LLM throughput-benchmark workload used by `kb_nano`s `tests/bench_vllm.py`. The source dataset is `allenai/WildChat-1M`, and the reference tokenizer used for filtering and stats is `meta-llama/Llama-3.1-8B-Instruct`. The dataset contains 1000 requests, with prompt tokens ranging from 256 to 1024 and decode tokens capped at 1024 with a floor of 256. The chat content is stored as raw text, allowing the benchmark runner to re-tokenize the workload with any models tokenizer. Detailed token-length statistics and schema descriptions are also provided.
提供机构:
sfc-gh-goliaro
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作