Welcome!

Cloud Native, Enterprise Application, Open Source and AI!

玩转大语言模型:基于 vLLM 框架的大模型推理优化实现参数 / 数据(P/D)分离

大模型在推理部署时,往往存在显存瓶颈: 模型参数(Parameters, P)动辄上百 GB,需要长期驻留显存。 输入/输出数据(Data, D)则随请求动态变化,但往往和参数耦合在同一设备上,导致显存占用不均衡,扩展性受限。 为了解决这一问题,可以借助 vLLM 框架实现参数 / 数据(P/D)分离,提升推理系统的灵活性和吞吐。 大模型推理的资源瓶颈 以一个 70B 规模的 Transformer 模型为例: 参数权重(FP16 存储)约需 140GB 显存; 每次请求输入的序列数据、KV Cache 会消耗额外显存,并随 batch size 增长而急剧膨胀。 如果不加区分地将 P 与 D 放在同一块 GPU: 参数长期驻留,挤压了用于动态数据的显存; 多实例并发时,数据显存不足,限制了吞吐。 因此,在分布式推理系统中,业界逐渐采用 参数与数据分离(P/D Separation) 的架构思路。 vLLM 简介 vLLM 是一个高性能的大模型推理引擎,核心优势包括: PagedAttention:高效管理 KV Cache,支持大批量并发; 高吞吐率:相较于 Hugging Face Transformers 推理,吞吐提升数倍; 灵活的分布式支持:可结合 DeepSpeed、Megatron 等方案,支持参数/数据分布式存储与调度。 vLLM 的模块化架构,使其天然适合实现 P/D 分离。 P/D 分离的实现思路 在 vLLM 中,推理流程大致分为两个部分: 参数侧(P) 模型权重加载与存放; 可通过 ZeRO-3 / Tensor Parallel 等策略将参数分布在多 GPU 节点上; 参数在整个推理生命周期中保持常驻,不随请求波动。 数据侧(D)...

九月 29, 2025 · 2 分钟

玩转大语言模型:微软最新开源长语音大模型 VibeVoice 入门

什么是 VibeVoice? VibeVoice 是 Microsoft Research 发布的一套面向长篇、多说话人、对话式语音合成的研究框架,目标场景例如整集播客、有声剧或访谈:能在单次生成中维持说话人一致性并处理自然的换手(turn-taking)。模型家族包含多个规模(例如 1.5B、7B 等),并在 Hugging Face 上以 microsoft/VibeVoice-1.5B 形式开放(模型卡、模型文件、model card 中有安装/使用与责任使用说明)。 它解决了传统 TTS(Text-To-Speech)系统的一些痛点,比如: 难以维持长时间对话的语音一致性(speaker consistency); 多说话人的切换自然性(turn-taking)差; 效率低 — 长文本 + 多说话人时,资源消耗大。 核心创新与架构 VibeVoice 有几个比较新的或者关键的技术设计: 组件 功能 / 目的 Continuous Speech Tokenizers(声学 + 语义两种) 用来把音频压缩成低帧率(7.5 Hz)表示,同时保留语义与音质信息。声学 token 与语义 token 分别负责声音细节和内容表达。 LLM 基础模型(Large Language Model) 在该版本里用的是 Qwen2.5-1.5B,用来处理文本、说话人信息以及上下文对话流。 Diffusion Head 对声学 VAE 的特征进行预测,是生成高保真声音细节的模块。这个模块较轻 (大致 4 层结构),在推理阶段使用 diffusion 的技术(包括去噪等)。 上下文长度 & 多说话人 支持高达 90 分钟语音生成,最多 4 个说话人。 架构图如下: 优点和局限 优点 长篇幅对话能力 — 能生成近 90 分钟的连续对话,并维持说话人一致性。 多说话人支持 — 最多支持 4 个不同说话人的切换,且对话流程自然。 压缩效率高 — 用 7....

九月 18, 2025 · 2 分钟

玩转大语言模型:使用 SGLang 框架实现大语言模型推理入门教程

随着大语言模型热度的升级,企业和个人使用者的研究重心逐步从训练转移至推理(说白了是由造轮子转变为务实的使用)。而在模型推理领域,最炙手可热的两大框架无疑是 vLLM 和 SGLang,而作为后起之秀的 SGLang,其表现也值得大家关注,今天就基于 SGLang 为大家带来一篇入门教程文章,希望能帮助更多希望了解大语言模型及 SGLang 框架的朋友。 SGLang 简介 SGLang 是一款面向大语言模型(LLM)和视觉语言模型(VLM)的高性能推理框架,通过精心设计的后端运行时与前端语言协同工作,使模型交互更加高效且可控。其核心优势包括: 高效后端运行时:采用创新的 RadixAttention 技术实现前缀缓存,支持跳跃式受限解码、零开销 CPU 调度、连续批处理、令牌注意力(分页注意力)、张量并行、FlashInfer 内核、分块预填充以及多种量化技术(FP8/INT4/AWQ/GPTQ),显著提升推理效率。 灵活前端语言:提供直观且强大的 LLM 编程接口,支持链式生成调用、高级提示工程、复杂控制流、多模态输入、并行处理及外部系统交互。 广泛模型兼容性:支持多种主流生成式模型(Llama、Gemma、Mistral、QWen、DeepSeek、LLaVA 等)、嵌入模型(e5-mistral、gte)及奖励模型(Skywork),并提供简便的新模型扩展机制。 活跃开源生态:拥有蓬勃发展的社区支持,已获得广泛业界认可(截至 2025 年 3 月 17 日,GitHub 累计星标超过 12,000)。 其技术架构如下: 除此之外,对于初学者,需要了解其以下特性: OpenAI 兼容 API:直接用 openai Python SDK 或 cURL 调用,不用改你的上层业务代码。 高吞吐与低延迟:结合连续批处理与前缀缓存等技巧,让相同前缀的请求复用计算。 生产友好:支持多并发、流式输出、可与 Hugging Face 模型库直接对接。 环境准备 工欲善其事必先利其器,要完成本文的新手实验,需准备如下环境: 操作系统:建议 Linux(常用为 Ubuntu 20.04+)。WSL2 也可尝试。 Python:建议 3.10 或 3.11。 GPU:建议 NVIDIA 显卡,24GB 显存可跑 7B/8B 级(如 Llama 3.1 8B)。没有 GPU 也能跑小模型或量化模型,但性能有限。 模型来源:Hugging Face(如 meta-llama/Llama-3....

七月 10, 2025 · 2 分钟

玩转大语言模型:基于 Azure AI Foundry 轻松部署使用 DeepSeek-R1

DeepSeek 的爆火让人们再一次看到了 AI 的魅力,而随之而来的不仅不是对算力需求的减少,而是在低成本亲民化人工智能中构建更多 AI 业务场景带来的另一波算力需求。今天我们来通过 Azure AI Foundry(原 Azure AI Studio)快速体验 DeepSeek 的风采。 先决条件 首先需要拥有 Azure 订阅,新用户参考玩转大语言模型:无需任何代码通过 Azure OpenAI 服务构建个人专属 ChatGPT中步骤进行开通。然后在 Azure 订阅中创建 AI Foundry 及相关资源,可以参考创建 Azure AI Foundry 服务中的步骤,这里不再赘述。 一切完成后进入 Azure AI Foundry 首页,并打开名为 main 的 Project,界面如下: 部署 DeepSeek-R1 大语言模型 点击左侧菜单中的 Model catalog 进入模型列表页: 这里可以看到 Azure 提供了超过 1800 种模型,满足用户全方位的需求。 在搜索框输入 DeepSeek 来查看 Azure 支持的 DeepSeek 模型种类: 其中,第一个是全量版 DeepSeek-R1 671B 模型: 另一个是经过 NPU 优化的基于 Qwen 的 DeepSeek-R1 1.5B 蒸馏版:...

二月 10, 2025 · 2 分钟

为繁忙的人们准备的 Istio 服务网格

原文地址(英文):The Istio Service Mesh for People Who Have Stuff to Do 我最近为开源服务网格项目 Istio 做出了一点贡献。 我的贡献包括为 Istio CLI 命令之一添加一些测试。如果您想查看详细信息, 可以在此处找到 Pull Request。 这不是一个巨大的变化,但却是一次很棒的学习经历。在 Istio 上工作帮助我更深入地了解服务网格。 我很高兴能做出更多贡献。在这篇文章中,我将解释 Istio 是什么、它为什么有用以及它是如何工作的。 Istio 是什么? 从本质上讲,Istio 是一种服务网格。服务网格管理微服务之间的通信, 处理诸如路由流量、保护通信和提供可观察性等事务。随着微服务数量的增加, 管理这些交互会变得复杂。Istio 可以自动执行其中许多任务, 因此您可以专注于构建应用程序,而不是管理服务到服务的通信。 为什么要使用 Istio? 随着架构变得越来越复杂,您将面临新的挑战。 服务需要以可靠、安全和高效的方式进行通信。Istio 可在三个关键领域帮助您实现此目标: 管理流量:Istio 让您可以控制服务之间的流量流动方式。 您可以在服务的不同版本之间拆分流量,在部署期间重新路由请求,或设置重试和超时策略。 确保通信安全:Istio 可以轻松启用双向 TLS(mTLS)。 这可确保服务之间的所有通信都经过加密和身份验证,从而阻止未经授权的服务进入。 可观察性:Istio 自动收集指标、日志和链路,让您实时了解服务。这有助于监控、故障排除和性能调整。 这三个领域 - 流量管理、安全性和可观察性是运行健康的微服务架构的关键,Istio 可以轻松处理它们。 通过 Istio 管理流量 Istio 的主要功能之一是管理服务之间的流量。在微服务设置中, 您可能同时运行多个版本的服务。例如,您可能正在测试支付服务的新版本, 并希望将大部分流量发送到版本 1,但将部分流量路由到版本 2。 以下是如何使用 Istio 在服务的两个版本之间分割流量的示例: apiVersion: networking.istio.io/v1alpha3 kind: VirtualService metadata: name: payments spec: hosts: - payments....

十月 10, 2024 · 3 分钟

玩转大语言模型:无需任何代码通过 Azure OpenAI 服务构建个人专属 ChatGPT

日常使用 ChatGPT 来帮助我们解决工作和生活中的问题已经变成习惯,但偶尔重度使用官方 GPT-4o 后发现会出现临时限额问题,今天我们就来手把手教大家如何轻松通过 Azure OpenAI 服务构建一个专属 ChatGPT 应用。 先决条件 在开始之前,请确保您拥有 Azure 国际版订阅服务,如果您还没有 Azure 订阅,可以通过 Pay-as-you-go 轻松开启一个 Azure 订阅: 注意:开启 Pay-as-you-go Azure 订阅必须绑定国际信用卡,对于新用户还有 200 美金的免费额度,我们完全可以使用这些额度充分使用 Azure 的各项服务。 下面介绍的内容除了与 GPT-4o 交互产生的费用外,其他都是免费的,日常不适用的话不会产生任何费用,GPT-4o 的费用也可以完全使用免费额度覆盖,所以大家不用担心信用卡被刷爆。 成功拥有 Azure 订阅后,然我们开始吧! 步骤 1:创建 Azure AI Studio 服务 在 Azure 订阅主页上方搜索栏中输入 azure ai,找到 Azure AI Studio: 点击进入 Azure AI Studio 资源页面: 点击 + New Azure AI Hub 进入创建页面: 从界面可以看到创建 Azure AI Hub 共分为 7 个步骤,这里按照指引一路 Next 都选择默认即可,其中需要注意的是区域建议选择 East US,由于免费订阅有一些资源使用限制,目前根据经验来看 East US 区域的使用便利性更佳。...

六月 25, 2024 · 2 分钟

Azure 101 系列课程:Microsoft Azure 概览

Azure 是由 Microsoft 提供的云计算平台和服务。它提供了一系列的基础设施即服务(Infrastructure as a Service,IaaS)、平台即服务(Platform as a Service,PaaS)和软件即服务(Software as a Service,SaaS)解决方案,用于构建、部署和管理各种类型的应用程序和服务。 总览 Azure 提供了广泛的功能和服务,包括虚拟机、存储、数据库、人工智能、机器学习、区块链、物联网、容器、Serverless 计算等。它还提供了全球范围的数据中心网络,使用户能够在全球范围内部署和扩展应用程序。 Azure 拥有数百项自身提供或合作伙伴提供的服务,截止至 2024 年 6 月 19 日,其拥有 19 个大分类,共计 413 项服务: 使用 Azure,您可以轻松地创建和管理虚拟机,存储和管理数据,构建和部署 Web 应用程序,进行大规模数据分析,实现自动化和监控等。Azure 还提供了强大的安全性和合规性功能,以确保您的数据和应用程序的安全性。 无论您是个人开发者、创业公司还是大型企业,Azure 都提供了灵活的定价模型,以满足不同规模和需求的项目。您可以根据实际使用情况付费,避免了高额的固定成本。 以下将总体介绍 19 个大分类的服务概述。 AI + Machine Learning Azure 提供了强大的 AI + 机器学习功能,使用户能够构建和部署智能应用程序和解决方案。通过 Azure 的 AI + 机器学习服务,您可以利用先进的机器学习算法和模型来处理和分析大规模数据,从而获得有价值的洞察和预测能力。 通过这些 AI + 机器学习服务,您可以实现各种应用场景,如智能推荐、欺诈检测、情感分析、语音识别和自动化决策等。无论您是初学者还是专业人士,Azure 的 AI + 机器学习功能都能帮助您轻松构建和部署智能应用程序。 Analytics Azure Analytics 是 Azure 平台下的一个重要分类,提供了一系列强大的数据分析和洞察服务。这些服务可以帮助用户从海量数据中提取有价值的信息,并进行深入的数据分析和可视化展示。 Azure Analytics 提供了丰富的数据分析和洞察服务,帮助用户从海量数据中提取有价值的信息,并进行深入的数据分析和可视化展示。无论是处理结构化数据还是非结构化数据,无论是批处理还是实时处理,Azure Analytics 都能满足用户的各种数据分析需求。...

六月 19, 2024 · 3 分钟