AI 推理的最佳选择 - vLLM

原文链接:The Best Choice for AI Inference -> vLLM 注意:为避免广告嫌疑,本文中移除了特定产品和品牌的商业宣传内容,仅保留技术特性及企业级产品功能描述,相关内容请以原文为准。 随着各组织从大语言模型(LLM)的试验阶段迈向生产部署,选择哪种推理平台就成了一项关键的业务决策。这个选择不仅影响性能,也影响灵活性、成本优化,以及应对快速变化业务需求的能力。 对于技术人员和方案架构师在评估 LLM 推理平台时,应该重点考虑以下三大因素: 架构灵活性:能否在不同硬件加速器和混合云环境间部署,而不会被某一家厂商锁定。 运行可扩展性:支持从单 GPU 部署扩展到分布式多节点的高级部署模式。 生态开放性:对最广泛的模型与内核支持,以及能与各种企业软件生态系统整合。 vLLM 在开源基础、先进内存管理能力,以及即将推出的分布式部署蓝图方面,独特地满足这些需求。与专有或硬件专用方案不同,这套组合提供了在成本、性能和运营需求上随时优化调整的自由。 本文将深入分析为何 vLLM 在其技术架构与能力上(尤其是其 KV-Cache 管理、并行策略,以及未来的 llm-d 分布式能力)提供了最可持续的生产级 LLM 部署路径。 开源优势 社区驱动的大规模创新 LLM 推理的发展,根本上受到开源创新的推动。过去一年半以来 vLLM V1: A Major Upgrade to vLLM’s Core Architecture | vLLM 博客(英文版),vLLM 在支持多样模型、功能和硬件后端方面取得显著成绩,从伯克利大学的研究项目成长为开源 AI 生态中的事实标准之一 vLLM 2024 Retrospective and 2025 Vision | vLLM 博客(英文版)。 vLLM 社区发展参考链接 vLLM 现在隶属于 PyTorch 基金会托管项目(GitHub — vllm-project/vllm: A high-throughput and memory-efficient inference and serving engine for LLMs),这保证了其长远的可持续性和治理机制。...

十月 15, 2025 · 7 分钟

玩转大语言模型:基于 vLLM 框架的大模型推理优化实现参数 / 数据(P/D)分离

大模型在推理部署时,往往存在显存瓶颈: 模型参数(Parameters, P)动辄上百 GB,需要长期驻留显存。 输入/输出数据(Data, D)则随请求动态变化,但往往和参数耦合在同一设备上,导致显存占用不均衡,扩展性受限。 为了解决这一问题,可以借助 vLLM 框架实现参数 / 数据(P/D)分离,提升推理系统的灵活性和吞吐。 大模型推理的资源瓶颈 以一个 70B 规模的 Transformer 模型为例: 参数权重(FP16 存储)约需 140GB 显存; 每次请求输入的序列数据、KV Cache 会消耗额外显存,并随 batch size 增长而急剧膨胀。 如果不加区分地将 P 与 D 放在同一块 GPU: 参数长期驻留,挤压了用于动态数据的显存; 多实例并发时,数据显存不足,限制了吞吐。 因此,在分布式推理系统中,业界逐渐采用 参数与数据分离(P/D Separation) 的架构思路。 vLLM 简介 vLLM 是一个高性能的大模型推理引擎,核心优势包括: PagedAttention:高效管理 KV Cache,支持大批量并发; 高吞吐率:相较于 Hugging Face Transformers 推理,吞吐提升数倍; 灵活的分布式支持:可结合 DeepSpeed、Megatron 等方案,支持参数/数据分布式存储与调度。 vLLM 的模块化架构,使其天然适合实现 P/D 分离。 P/D 分离的实现思路 在 vLLM 中,推理流程大致分为两个部分: 参数侧(P) 模型权重加载与存放; 可通过 ZeRO-3 / Tensor Parallel 等策略将参数分布在多 GPU 节点上; 参数在整个推理生命周期中保持常驻,不随请求波动。 数据侧(D)...

九月 29, 2025 · 2 分钟

玩转大语言模型:微软最新开源长语音大模型 VibeVoice 入门

什么是 VibeVoice? VibeVoice 是 Microsoft Research 发布的一套面向长篇、多说话人、对话式语音合成的研究框架,目标场景例如整集播客、有声剧或访谈:能在单次生成中维持说话人一致性并处理自然的换手(turn-taking)。模型家族包含多个规模(例如 1.5B、7B 等),并在 Hugging Face 上以 microsoft/VibeVoice-1.5B 形式开放(模型卡、模型文件、model card 中有安装/使用与责任使用说明)。 它解决了传统 TTS(Text-To-Speech)系统的一些痛点,比如: 难以维持长时间对话的语音一致性(speaker consistency); 多说话人的切换自然性(turn-taking)差; 效率低 — 长文本 + 多说话人时,资源消耗大。 核心创新与架构 VibeVoice 有几个比较新的或者关键的技术设计: 组件 功能 / 目的 Continuous Speech Tokenizers(声学 + 语义两种) 用来把音频压缩成低帧率(7.5 Hz)表示,同时保留语义与音质信息。声学 token 与语义 token 分别负责声音细节和内容表达。 LLM 基础模型(Large Language Model) 在该版本里用的是 Qwen2.5-1.5B,用来处理文本、说话人信息以及上下文对话流。 Diffusion Head 对声学 VAE 的特征进行预测,是生成高保真声音细节的模块。这个模块较轻 (大致 4 层结构),在推理阶段使用 diffusion 的技术(包括去噪等)。 上下文长度 & 多说话人 支持高达 90 分钟语音生成,最多 4 个说话人。 架构图如下: 优点和局限 优点 长篇幅对话能力 — 能生成近 90 分钟的连续对话,并维持说话人一致性。 多说话人支持 — 最多支持 4 个不同说话人的切换,且对话流程自然。 压缩效率高 — 用 7....

九月 18, 2025 · 2 分钟

玩转大语言模型:使用 SGLang 框架实现大语言模型推理入门教程

随着大语言模型热度的升级,企业和个人使用者的研究重心逐步从训练转移至推理(说白了是由造轮子转变为务实的使用)。而在模型推理领域,最炙手可热的两大框架无疑是 vLLM 和 SGLang,而作为后起之秀的 SGLang,其表现也值得大家关注,今天就基于 SGLang 为大家带来一篇入门教程文章,希望能帮助更多希望了解大语言模型及 SGLang 框架的朋友。 SGLang 简介 SGLang 是一款面向大语言模型(LLM)和视觉语言模型(VLM)的高性能推理框架,通过精心设计的后端运行时与前端语言协同工作,使模型交互更加高效且可控。其核心优势包括: 高效后端运行时:采用创新的 RadixAttention 技术实现前缀缓存,支持跳跃式受限解码、零开销 CPU 调度、连续批处理、令牌注意力(分页注意力)、张量并行、FlashInfer 内核、分块预填充以及多种量化技术(FP8/INT4/AWQ/GPTQ),显著提升推理效率。 灵活前端语言:提供直观且强大的 LLM 编程接口,支持链式生成调用、高级提示工程、复杂控制流、多模态输入、并行处理及外部系统交互。 广泛模型兼容性:支持多种主流生成式模型(Llama、Gemma、Mistral、QWen、DeepSeek、LLaVA 等)、嵌入模型(e5-mistral、gte)及奖励模型(Skywork),并提供简便的新模型扩展机制。 活跃开源生态:拥有蓬勃发展的社区支持,已获得广泛业界认可(截至 2025 年 3 月 17 日,GitHub 累计星标超过 12,000)。 其技术架构如下: 除此之外,对于初学者,需要了解其以下特性: OpenAI 兼容 API:直接用 openai Python SDK 或 cURL 调用,不用改你的上层业务代码。 高吞吐与低延迟:结合连续批处理与前缀缓存等技巧,让相同前缀的请求复用计算。 生产友好:支持多并发、流式输出、可与 Hugging Face 模型库直接对接。 环境准备 工欲善其事必先利其器,要完成本文的新手实验,需准备如下环境: 操作系统:建议 Linux(常用为 Ubuntu 20.04+)。WSL2 也可尝试。 Python:建议 3.10 或 3.11。 GPU:建议 NVIDIA 显卡,24GB 显存可跑 7B/8B 级(如 Llama 3.1 8B)。没有 GPU 也能跑小模型或量化模型,但性能有限。 模型来源:Hugging Face(如 meta-llama/Llama-3....

七月 10, 2025 · 2 分钟

玩转大语言模型:基于 Azure AI Foundry 轻松部署使用 DeepSeek-R1

DeepSeek 的爆火让人们再一次看到了 AI 的魅力,而随之而来的不仅不是对算力需求的减少,而是在低成本亲民化人工智能中构建更多 AI 业务场景带来的另一波算力需求。今天我们来通过 Azure AI Foundry(原 Azure AI Studio)快速体验 DeepSeek 的风采。 先决条件 首先需要拥有 Azure 订阅,新用户参考玩转大语言模型:无需任何代码通过 Azure OpenAI 服务构建个人专属 ChatGPT中步骤进行开通。然后在 Azure 订阅中创建 AI Foundry 及相关资源,可以参考创建 Azure AI Foundry 服务中的步骤,这里不再赘述。 一切完成后进入 Azure AI Foundry 首页,并打开名为 main 的 Project,界面如下: 部署 DeepSeek-R1 大语言模型 点击左侧菜单中的 Model catalog 进入模型列表页: 这里可以看到 Azure 提供了超过 1800 种模型,满足用户全方位的需求。 在搜索框输入 DeepSeek 来查看 Azure 支持的 DeepSeek 模型种类: 其中,第一个是全量版 DeepSeek-R1 671B 模型: 另一个是经过 NPU 优化的基于 Qwen 的 DeepSeek-R1 1.5B 蒸馏版:...

二月 10, 2025 · 2 分钟

为繁忙的人们准备的 Istio 服务网格

原文地址(英文):The Istio Service Mesh for People Who Have Stuff to Do 我最近为开源服务网格项目 Istio 做出了一点贡献。 我的贡献包括为 Istio CLI 命令之一添加一些测试。如果您想查看详细信息, 可以在此处找到 Pull Request。 这不是一个巨大的变化,但却是一次很棒的学习经历。在 Istio 上工作帮助我更深入地了解服务网格。 我很高兴能做出更多贡献。在这篇文章中,我将解释 Istio 是什么、它为什么有用以及它是如何工作的。 Istio 是什么? 从本质上讲,Istio 是一种服务网格。服务网格管理微服务之间的通信, 处理诸如路由流量、保护通信和提供可观察性等事务。随着微服务数量的增加, 管理这些交互会变得复杂。Istio 可以自动执行其中许多任务, 因此您可以专注于构建应用程序,而不是管理服务到服务的通信。 为什么要使用 Istio? 随着架构变得越来越复杂,您将面临新的挑战。 服务需要以可靠、安全和高效的方式进行通信。Istio 可在三个关键领域帮助您实现此目标: 管理流量:Istio 让您可以控制服务之间的流量流动方式。 您可以在服务的不同版本之间拆分流量,在部署期间重新路由请求,或设置重试和超时策略。 确保通信安全:Istio 可以轻松启用双向 TLS(mTLS)。 这可确保服务之间的所有通信都经过加密和身份验证,从而阻止未经授权的服务进入。 可观察性:Istio 自动收集指标、日志和链路,让您实时了解服务。这有助于监控、故障排除和性能调整。 这三个领域 - 流量管理、安全性和可观察性是运行健康的微服务架构的关键,Istio 可以轻松处理它们。 通过 Istio 管理流量 Istio 的主要功能之一是管理服务之间的流量。在微服务设置中, 您可能同时运行多个版本的服务。例如,您可能正在测试支付服务的新版本, 并希望将大部分流量发送到版本 1,但将部分流量路由到版本 2。 以下是如何使用 Istio 在服务的两个版本之间分割流量的示例: apiVersion: networking.istio.io/v1alpha3 kind: VirtualService metadata: name: payments spec: hosts: - payments....

十月 10, 2024 · 3 分钟

玩转大语言模型:无需任何代码通过 Azure OpenAI 服务构建个人专属 ChatGPT

日常使用 ChatGPT 来帮助我们解决工作和生活中的问题已经变成习惯,但偶尔重度使用官方 GPT-4o 后发现会出现临时限额问题,今天我们就来手把手教大家如何轻松通过 Azure OpenAI 服务构建一个专属 ChatGPT 应用。 先决条件 在开始之前,请确保您拥有 Azure 国际版订阅服务,如果您还没有 Azure 订阅,可以通过 Pay-as-you-go 轻松开启一个 Azure 订阅: 注意:开启 Pay-as-you-go Azure 订阅必须绑定国际信用卡,对于新用户还有 200 美金的免费额度,我们完全可以使用这些额度充分使用 Azure 的各项服务。 下面介绍的内容除了与 GPT-4o 交互产生的费用外,其他都是免费的,日常不适用的话不会产生任何费用,GPT-4o 的费用也可以完全使用免费额度覆盖,所以大家不用担心信用卡被刷爆。 成功拥有 Azure 订阅后,然我们开始吧! 步骤 1:创建 Azure AI Studio 服务 在 Azure 订阅主页上方搜索栏中输入 azure ai,找到 Azure AI Studio: 点击进入 Azure AI Studio 资源页面: 点击 + New Azure AI Hub 进入创建页面: 从界面可以看到创建 Azure AI Hub 共分为 7 个步骤,这里按照指引一路 Next 都选择默认即可,其中需要注意的是区域建议选择 East US,由于免费订阅有一些资源使用限制,目前根据经验来看 East US 区域的使用便利性更佳。...

六月 25, 2024 · 2 分钟

Azure 101 系列文章