Opensource

大语言模型（LLM）推理加速：预填充（Prefill）和解码（Decode）解耦（PD 分离）

随着大语言模型（LLM）在对话系统、智能助手和 Agent 场景中的广泛落地，推理系统面临的核心挑战已从“能不能跑”转向“如何以更低延迟、更高吞吐、更稳定的方式运行”。在这一背景下，PD Disaggregated（Prefill / Decode 解耦）逐渐成为大规模在线推理系统中的关键架构思想。本文将不依赖任何具体推理框架，从模型推理执行流的角度，系统阐述什么是 PD Disaggregated、为什么需要它，以及它为 LLM 推理系统带来的核心优势。 LLM 推理的两个本质阶段所有自回归大语言模型的推理过程，本质上都可以拆解为两个阶段： Prefill（预填充阶段） Prefill 阶段负责处理用户输入的完整 Prompt，其主要任务包括：对输入序列进行一次完整前向计算；构建上下文对应的 KV Cache；生成第一个输出 Token。这一阶段具有如下特征：计算密集型（Compute-bound）大规模矩阵乘法（GEMM）占主导序列长度通常较长对批处理（Batching）高度友好 Decode（解码阶段） Decode 阶段进入逐 Token 生成过程，每一步都会：输入上一个生成的 Token；读取历史 KV Cache；生成下一个 Token，直到结束条件满足。其特征与 Prefill 明显不同：访存密集型（Memory-bound）计算规模小，但 KV Cache 访问频繁强延迟敏感执行步数随生成长度线性增长问题根源：Prefill 与 Decode 的“异构性” Prefill 与 Decode 并非同一类工作负载，它们在多个维度上呈现出显著异构性：维度 Prefill Decode 计算模式大算子、密集计算小算子、频繁访存批处理需求大 batch 效果最好 batch 过大反而增加延迟延迟容忍度相对较高极低资源瓶颈算力显存带宽 / KV Cache 如果将这两种阶段混合部署、统一调度，就会导致资源使用上的结构性低效。...

AI 推理的最佳选择 - vLLM

原文链接：The Best Choice for AI Inference -> vLLM 注意：本译文已获得的原文作者翻译授权，为避免广告嫌疑，本文中移除了特定产品和品牌的商业宣传内容，仅保留技术特性及企业级产品功能描述，相关内容请以原文为准。随着各组织从大语言模型（LLM）的试验阶段迈向生产部署，选择哪种推理平台就成了一项关键的业务决策。这个选择不仅影响性能，也影响灵活性、成本优化，以及应对快速变化业务需求的能力。对于技术人员和方案架构师在评估 LLM 推理平台时，应该重点考虑以下三大因素：架构灵活性：能否在不同硬件加速器和混合云环境间部署，而不会被某一家厂商锁定。运行可扩展性：支持从单 GPU 部署扩展到分布式多节点的高级部署模式。生态开放性：对最广泛的模型与内核支持，以及能与各种企业软件生态系统整合。 vLLM 在开源基础、先进内存管理能力，以及即将推出的分布式部署蓝图方面，独特地满足这些需求。与专有或硬件专用方案不同，这套组合提供了在成本、性能和运营需求上随时优化调整的自由。本文将深入分析为何 vLLM 在其技术架构与能力上（尤其是其 KV-Cache 管理、并行策略，以及未来的 llm-d 分布式能力）提供了最可持续的生产级 LLM 部署路径。开源优势社区驱动的大规模创新 LLM 推理的发展，根本上受到开源创新的推动。过去一年半以来 vLLM V1: A Major Upgrade to vLLM’s Core Architecture | vLLM 博客（英文版），vLLM 在支持多样模型、功能和硬件后端方面取得显著成绩，从伯克利大学的研究项目成长为开源 AI 生态中的事实标准之一 vLLM 2024 Retrospective and 2025 Vision | vLLM 博客（英文版）。 vLLM 社区发展参考链接 vLLM 现在隶属于 PyTorch 基金会托管项目（GitHub — vllm-project/vllm: A high-throughput and memory-efficient inference and serving engine for LLMs），这保证了其长远的可持续性和治理机制。...

玩转大语言模型：基于 vLLM 框架的大模型推理优化实现参数 / 数据（P/D）分离

大模型在推理部署时，往往存在显存瓶颈：模型参数（Parameters, P）动辄上百 GB，需要长期驻留显存。输入/输出数据（Data, D）则随请求动态变化，但往往和参数耦合在同一设备上，导致显存占用不均衡，扩展性受限。为了解决这一问题，可以借助 vLLM 框架实现参数 / 数据（P/D）分离，提升推理系统的灵活性和吞吐。大模型推理的资源瓶颈以一个 70B 规模的 Transformer 模型为例：参数权重（FP16 存储）约需 140GB 显存；每次请求输入的序列数据、KV Cache 会消耗额外显存，并随 batch size 增长而急剧膨胀。如果不加区分地将 P 与 D 放在同一块 GPU：参数长期驻留，挤压了用于动态数据的显存；多实例并发时，数据显存不足，限制了吞吐。因此，在分布式推理系统中，业界逐渐采用参数与数据分离（P/D Separation）的架构思路。 vLLM 简介 vLLM 是一个高性能的大模型推理引擎，核心优势包括： PagedAttention：高效管理 KV Cache，支持大批量并发；高吞吐率：相较于 Hugging Face Transformers 推理，吞吐提升数倍；灵活的分布式支持：可结合 DeepSpeed、Megatron 等方案，支持参数/数据分布式存储与调度。 vLLM 的模块化架构，使其天然适合实现 P/D 分离。 P/D 分离的实现思路在 vLLM 中，推理流程大致分为两个部分：参数侧（P）模型权重加载与存放；可通过 ZeRO-3 / Tensor Parallel 等策略将参数分布在多 GPU 节点上；参数在整个推理生命周期中保持常驻，不随请求波动。数据侧（D）...

玩转大语言模型：微软最新开源长语音大模型 VibeVoice 入门

什么是 VibeVoice？ VibeVoice 是 Microsoft Research 发布的一套面向长篇、多说话人、对话式语音合成的研究框架，目标场景例如整集播客、有声剧或访谈：能在单次生成中维持说话人一致性并处理自然的换手（turn-taking）。模型家族包含多个规模（例如 1.5B、7B 等），并在 Hugging Face 上以 microsoft/VibeVoice-1.5B 形式开放（模型卡、模型文件、model card 中有安装/使用与责任使用说明）。它解决了传统 TTS（Text-To-Speech）系统的一些痛点，比如：难以维持长时间对话的语音一致性（speaker consistency）；多说话人的切换自然性（turn-taking）差；效率低 — 长文本 + 多说话人时，资源消耗大。核心创新与架构 VibeVoice 有几个比较新的或者关键的技术设计：组件功能 / 目的 Continuous Speech Tokenizers（声学 + 语义两种）用来把音频压缩成低帧率（7.5 Hz）表示，同时保留语义与音质信息。声学 token 与语义 token 分别负责声音细节和内容表达。 LLM 基础模型（Large Language Model）在该版本里用的是 Qwen2.5-1.5B，用来处理文本、说话人信息以及上下文对话流。 Diffusion Head 对声学 VAE 的特征进行预测，是生成高保真声音细节的模块。这个模块较轻 (大致 4 层结构)，在推理阶段使用 diffusion 的技术（包括去噪等）。上下文长度 & 多说话人支持高达 90 分钟语音生成，最多 4 个说话人。架构图如下：优点和局限优点长篇幅对话能力 — 能生成近 90 分钟的连续对话，并维持说话人一致性。多说话人支持 — 最多支持 4 个不同说话人的切换，且对话流程自然。压缩效率高 — 用 7....