大语言模型推理并行策略全景解析:TP / DP / PP / EP 原理与 vLLM 实战性能验证

当大语言模型的参数规模跨过几十亿门槛之后,一个事实变得不可回避:单卡时代已经结束。无论是训练还是推理,模型本身的参数规模、KV Cache 的增长速度,以及真实业务中并发请求带来的显存与算力压力,都决定了大模型必须运行在多 GPU、甚至多节点的环境中。 然而,用多张卡跑模型并不是一个简单的资源堆叠问题。在实践中,工程团队很快会发现:不同的拆分方式,带来的性能表现差异可能是数量级的。有的配置 TTFT 极低,却在高并发下迅速失速;有的方案吞吐惊人,却难以满足在线服务对延迟的要求;还有一些组合在理论上看似合理,却在真实硬件拓扑下被通信成本完全吞噬。 在训练与推理阶段,业界逐步沉淀出四类核心并行策略: TP(Tensor Parallelism,张量并行) DP(Data Parallelism,数据并行) PP(Pipeline Parallelism,流水线并行) EP(Expert Parallelism,专家并行,主要用于 MoE) 大语言模型四种核心并行策略基础 Tensor Parallelism(TP):算子级拆分 核心思想:将单层内部的矩阵计算(如 Linear / Attention)沿维度切分到多张 GPU 上并行计算。 典型拆分方式: Linear 层按 hidden_size 或 num_heads 切分 Attention 的 Q / K / V 或 FFN 的中间层拆分 优点: 单层显存占用显著下降 单 token 延迟较低(适合推理) 代价: 每一层都需要 All-Reduce / All-Gather 通信频繁,对 NVLink / IB 依赖高 适用场景: 单模型过大但层数不多 对 **TTFT(Time To First Token)**敏感的在线推理 Data Parallelism(DP):请求级复制 核心思想:模型完整复制到多张 GPU,每张 GPU 处理不同请求或 batch。...

十二月 24, 2025 · 2 分钟