Microsoft

玩转大语言模型：基于 vLLM 框架的大模型推理优化实现参数 / 数据（P/D）分离

大模型在推理部署时，往往存在显存瓶颈：模型参数（Parameters, P）动辄上百 GB，需要长期驻留显存。输入/输出数据（Data, D）则随请求动态变化，但往往和参数耦合在同一设备上，导致显存占用不均衡，扩展性受限。为了解决这一问题，可以借助 vLLM 框架实现参数 / 数据（P/D）分离，提升推理系统的灵活性和吞吐。大模型推理的资源瓶颈以一个 70B 规模的 Transformer 模型为例：参数权重（FP16 存储）约需 140GB 显存；每次请求输入的序列数据、KV Cache 会消耗额外显存，并随 batch size 增长而急剧膨胀。如果不加区分地将 P 与 D 放在同一块 GPU：参数长期驻留，挤压了用于动态数据的显存；多实例并发时，数据显存不足，限制了吞吐。因此，在分布式推理系统中，业界逐渐采用参数与数据分离（P/D Separation）的架构思路。 vLLM 简介 vLLM 是一个高性能的大模型推理引擎，核心优势包括： PagedAttention：高效管理 KV Cache，支持大批量并发；高吞吐率：相较于 Hugging Face Transformers 推理，吞吐提升数倍；灵活的分布式支持：可结合 DeepSpeed、Megatron 等方案，支持参数/数据分布式存储与调度。 vLLM 的模块化架构，使其天然适合实现 P/D 分离。 P/D 分离的实现思路在 vLLM 中，推理流程大致分为两个部分：参数侧（P）模型权重加载与存放；可通过 ZeRO-3 / Tensor Parallel 等策略将参数分布在多 GPU 节点上；参数在整个推理生命周期中保持常驻，不随请求波动。数据侧（D）...

玩转大语言模型：微软最新开源长语音大模型 VibeVoice 入门

什么是 VibeVoice？ VibeVoice 是 Microsoft Research 发布的一套面向长篇、多说话人、对话式语音合成的研究框架，目标场景例如整集播客、有声剧或访谈：能在单次生成中维持说话人一致性并处理自然的换手（turn-taking）。模型家族包含多个规模（例如 1.5B、7B 等），并在 Hugging Face 上以 microsoft/VibeVoice-1.5B 形式开放（模型卡、模型文件、model card 中有安装/使用与责任使用说明）。它解决了传统 TTS（Text-To-Speech）系统的一些痛点，比如：难以维持长时间对话的语音一致性（speaker consistency）；多说话人的切换自然性（turn-taking）差；效率低 — 长文本 + 多说话人时，资源消耗大。核心创新与架构 VibeVoice 有几个比较新的或者关键的技术设计：组件功能 / 目的 Continuous Speech Tokenizers（声学 + 语义两种）用来把音频压缩成低帧率（7.5 Hz）表示，同时保留语义与音质信息。声学 token 与语义 token 分别负责声音细节和内容表达。 LLM 基础模型（Large Language Model）在该版本里用的是 Qwen2.5-1.5B，用来处理文本、说话人信息以及上下文对话流。 Diffusion Head 对声学 VAE 的特征进行预测，是生成高保真声音细节的模块。这个模块较轻 (大致 4 层结构)，在推理阶段使用 diffusion 的技术（包括去噪等）。上下文长度 & 多说话人支持高达 90 分钟语音生成，最多 4 个说话人。架构图如下：优点和局限优点长篇幅对话能力 — 能生成近 90 分钟的连续对话，并维持说话人一致性。多说话人支持 — 最多支持 4 个不同说话人的切换，且对话流程自然。压缩效率高 — 用 7....

Azure 101 系列课程：Microsoft Azure 概览

Azure 是由 Microsoft 提供的云计算平台和服务。它提供了一系列的基础设施即服务（Infrastructure as a Service，IaaS）、平台即服务（Platform as a Service，PaaS）和软件即服务（Software as a Service，SaaS）解决方案，用于构建、部署和管理各种类型的应用程序和服务。总览 Azure 提供了广泛的功能和服务，包括虚拟机、存储、数据库、人工智能、机器学习、区块链、物联网、容器、Serverless 计算等。它还提供了全球范围的数据中心网络，使用户能够在全球范围内部署和扩展应用程序。 Azure 拥有数百项自身提供或合作伙伴提供的服务，截止至 2024 年 6 月 19 日，其拥有 19 个大分类，共计 413 项服务：使用 Azure，您可以轻松地创建和管理虚拟机，存储和管理数据，构建和部署 Web 应用程序，进行大规模数据分析，实现自动化和监控等。Azure 还提供了强大的安全性和合规性功能，以确保您的数据和应用程序的安全性。无论您是个人开发者、创业公司还是大型企业，Azure 都提供了灵活的定价模型，以满足不同规模和需求的项目。您可以根据实际使用情况付费，避免了高额的固定成本。以下将总体介绍 19 个大分类的服务概述。 AI + Machine Learning Azure 提供了强大的 AI + 机器学习功能，使用户能够构建和部署智能应用程序和解决方案。通过 Azure 的 AI + 机器学习服务，您可以利用先进的机器学习算法和模型来处理和分析大规模数据，从而获得有价值的洞察和预测能力。通过这些 AI + 机器学习服务，您可以实现各种应用场景，如智能推荐、欺诈检测、情感分析、语音识别和自动化决策等。无论您是初学者还是专业人士，Azure 的 AI + 机器学习功能都能帮助您轻松构建和部署智能应用程序。 Analytics Azure Analytics 是 Azure 平台下的一个重要分类，提供了一系列强大的数据分析和洞察服务。这些服务可以帮助用户从海量数据中提取有价值的信息，并进行深入的数据分析和可视化展示。 Azure Analytics 提供了丰富的数据分析和洞察服务，帮助用户从海量数据中提取有价值的信息，并进行深入的数据分析和可视化展示。无论是处理结构化数据还是非结构化数据，无论是批处理还是实时处理，Azure Analytics 都能满足用户的各种数据分析需求。...