Parallelism

当大语言模型的参数规模跨过几十亿门槛之后，一个事实变得不可回避：单卡时代已经结束。无论是训练还是推理，模型本身的参数规模、KV Cache 的增长速度，以及真实业务中并发请求带来的显存与算力压力，都决定了大模型必须运行在多 GPU、甚至多节点的环境中。然而，用多张卡跑模型并不是一个简单的资源堆叠问题。在实践中，工程团队很快会发现：不同的拆分方式，带来的性能表现差异可能是数量级的。有的配置 TTFT 极低，却在高并发下迅速失速；有的方案吞吐惊人，却难以满足在线服务对延迟的要求；还有一些组合在理论上看似合理，却在真实硬件拓扑下被通信成本完全吞噬。在训练与推理阶段，业界逐步沉淀出四类核心并行策略： TP（Tensor Parallelism，张量并行） DP（Data Parallelism，数据并行） PP（Pipeline Parallelism，流水线并行） EP（Expert Parallelism，专家并行，主要用于 MoE）大语言模型四种核心并行策略基础 Tensor Parallelism（TP）：算子级拆分核心思想：将单层内部的矩阵计算（如 Linear / Attention）沿维度切分到多张 GPU 上并行计算。典型拆分方式： Linear 层按 hidden_size 或 num_heads 切分 Attention 的 Q / K / V 或 FFN 的中间层拆分优点：单层显存占用显著下降单 token 延迟较低（适合推理）代价：每一层都需要 All-Reduce / All-Gather 通信频繁，对 NVLink / IB 依赖高适用场景：单模型过大但层数不多对 **TTFT（Time To First Token）**敏感的在线推理 Data Parallelism（DP）：请求级复制核心思想：模型完整复制到多张 GPU，每张 GPU 处理不同请求或 batch。...