Vllm Software Stack Architecture

About 531,000 results

Open links in new tab

Any time

zhihu.com
https://www.zhihu.com › question
有没有 vLLM / SGLang 多机多卡部署详细教程？ - 知乎
Mar 28, 2025 · 其中SGLang暂时不支持PP，支持多机跑TP，vLLM和TRT-LLM支持PP。鉴于vLLM使用难度小，社区活跃，有问题基本能在issue捞到，本文选取vLLM框架来作为 R1 671B 多机部署案 …
zhihu.com
https://www.zhihu.com › question
有人使用vLLM加速过自己的大语言模型吗？效果怎么样？ - 知乎
vLLM是通过什么技术，动态地为请求分配KV cache显存，提升显存利用率的？当采用动态分配显存的办法时，虽然明面上同一时刻能处理更多的prompt了，但因为没有为每个prompt预留充足的显存空 …
zhihu.com
https://www.zhihu.com › question
如何在 Kubernetes 集群中部署大模型开源推理框架 VLLM？
vLLM Production Stack填补了vLLM生态在分布式部署上的空白，为大规模LLM服务提供了一个官方参考实现。项目完全开源，社区活跃，已有来自IBM、Lambda、HuggingFace等公司的30多位贡献者。
zhihu.com
https://www.zhihu.com › question
如何看待vllm-project/vllm-ascend, "vLLM原生支持华为昇腾"？
vLLM原生支持昇腾，加速大模型推理创新，社区尝鲜版本首发！关于mindie: [图片] 我之前做的笔记, 可能有些认知要更新了: 1磨刀师开始砍柴…
zhihu.com
https://www.zhihu.com › tardis › bd › art
多机多卡docker部署vllm - 知乎
多机部署vllm实施起来也很简单，利用ray搭建集群，将多台机器的显卡资源整合到一起，然后直接启动vllm。只是最开始没什么经验，容易踩坑。
zhihu.com
https://www.zhihu.com › tardis › bd › ans
大模型推理框架，SGLang和vLLM有哪些区别？
vLLM全称Vectorized Large Language Model Inference（向量化大型语言模型推理），简单说就是个专为大模型推理和服务的高性能库。它在速度、效率和易用性上做了优化，所以很多人部署DeepSeek …
zhihu.com
https://www.zhihu.com › question
如何解决LLM大语言模型的并发问题？ - 知乎
首先vLLM把物理空间当成一个KV Cache，然后将这个KV Cache划分成一种固定大小的连续内存块，可以从左到右存储KV Cache。如下图划分成一系列的blocks，每个block中有固定的token数目，这幅 …
zhihu.com
https://www.zhihu.com › question
大模型推理框架，SGLang和vLLM有哪些区别？ - 知乎
官方vllm和sglang均已支持deepseek最新系列模型 (V3,R)，对于已经支持vllm和sglang的特定硬件（对vllm和sglang做了相应的修改，并且已经支持deepseek-v2），为了同样支持deekseek最新系列模 …
zhihu.com
https://www.zhihu.com › column
vllm架构及源码 - 知乎
本文是系列文章的第四篇，前面的文章请参考： vllm架构及源码本章主要介绍Engine主循环，vllm的源码非常精妙，感觉写不出来主创的精华，本系列争取能够抛砖引玉，未尽兴的同学可以移步源码享用。
zhihu.com
https://www.zhihu.com › question
vllm内部怎么根据max_model_len自动计算max_num_batched_tokens？ …
在VLLM（非常大语言模型）内部，根据 max_model_len 自动计算 max_num_batched_tokens 是为了优化模型的性能和资源使用。以下是如何在内部处理和计算这些参数的详细步骤和原理： 1. 定义参数 …

Pagination
- Next
- Next