玩转大语言模型:使用 SGLang 框架实现大语言模型推理入门教程

随着大语言模型热度的升级,企业和个人使用者的研究重心逐步从训练转移至推理(说白了是由造轮子转变为务实的使用)。而在模型推理领域,最炙手可热的两大框架无疑是 vLLM 和 SGLang,而作为后起之秀的 SGLang,其表现也值得大家关注,今天就基于 SGLang 为大家带来一篇入门教程文章,希望能帮助更多希望了解大语言模型及 SGLang 框架的朋友。 SGLang 简介 SGLang 是一款面向大语言模型(LLM)和视觉语言模型(VLM)的高性能推理框架,通过精心设计的后端运行时与前端语言协同工作,使模型交互更加高效且可控。其核心优势包括: 高效后端运行时:采用创新的 RadixAttention 技术实现前缀缓存,支持跳跃式受限解码、零开销 CPU 调度、连续批处理、令牌注意力(分页注意力)、张量并行、FlashInfer 内核、分块预填充以及多种量化技术(FP8/INT4/AWQ/GPTQ),显著提升推理效率。 灵活前端语言:提供直观且强大的 LLM 编程接口,支持链式生成调用、高级提示工程、复杂控制流、多模态输入、并行处理及外部系统交互。 广泛模型兼容性:支持多种主流生成式模型(Llama、Gemma、Mistral、QWen、DeepSeek、LLaVA 等)、嵌入模型(e5-mistral、gte)及奖励模型(Skywork),并提供简便的新模型扩展机制。 活跃开源生态:拥有蓬勃发展的社区支持,已获得广泛业界认可(截至 2025 年 3 月 17 日,GitHub 累计星标超过 12,000)。 其技术架构如下: 除此之外,对于初学者,需要了解其以下特性: OpenAI 兼容 API:直接用 openai Python SDK 或 cURL 调用,不用改你的上层业务代码。 高吞吐与低延迟:结合连续批处理与前缀缓存等技巧,让相同前缀的请求复用计算。 生产友好:支持多并发、流式输出、可与 Hugging Face 模型库直接对接。 环境准备 工欲善其事必先利其器,要完成本文的新手实验,需准备如下环境: 操作系统:建议 Linux(常用为 Ubuntu 20.04+)。WSL2 也可尝试。 Python:建议 3.10 或 3.11。 GPU:建议 NVIDIA 显卡,24GB 显存可跑 7B/8B 级(如 Llama 3.1 8B)。没有 GPU 也能跑小模型或量化模型,但性能有限。 模型来源:Hugging Face(如 meta-llama/Llama-3....

七月 10, 2025 · 2 分钟

玩转大语言模型:基于 Azure AI Foundry 轻松部署使用 DeepSeek-R1

DeepSeek 的爆火让人们再一次看到了 AI 的魅力,而随之而来的不仅不是对算力需求的减少,而是在低成本亲民化人工智能中构建更多 AI 业务场景带来的另一波算力需求。今天我们来通过 Azure AI Foundry(原 Azure AI Studio)快速体验 DeepSeek 的风采。 先决条件 首先需要拥有 Azure 订阅,新用户参考玩转大语言模型:无需任何代码通过 Azure OpenAI 服务构建个人专属 ChatGPT中步骤进行开通。然后在 Azure 订阅中创建 AI Foundry 及相关资源,可以参考创建 Azure AI Foundry 服务中的步骤,这里不再赘述。 一切完成后进入 Azure AI Foundry 首页,并打开名为 main 的 Project,界面如下: 部署 DeepSeek-R1 大语言模型 点击左侧菜单中的 Model catalog 进入模型列表页: 这里可以看到 Azure 提供了超过 1800 种模型,满足用户全方位的需求。 在搜索框输入 DeepSeek 来查看 Azure 支持的 DeepSeek 模型种类: 其中,第一个是全量版 DeepSeek-R1 671B 模型: 另一个是经过 NPU 优化的基于 Qwen 的 DeepSeek-R1 1.5B 蒸馏版:...

二月 10, 2025 · 2 分钟

玩转大语言模型:无需任何代码通过 Azure OpenAI 服务构建个人专属 ChatGPT

日常使用 ChatGPT 来帮助我们解决工作和生活中的问题已经变成习惯,但偶尔重度使用官方 GPT-4o 后发现会出现临时限额问题,今天我们就来手把手教大家如何轻松通过 Azure OpenAI 服务构建一个专属 ChatGPT 应用。 先决条件 在开始之前,请确保您拥有 Azure 国际版订阅服务,如果您还没有 Azure 订阅,可以通过 Pay-as-you-go 轻松开启一个 Azure 订阅: 注意:开启 Pay-as-you-go Azure 订阅必须绑定国际信用卡,对于新用户还有 200 美金的免费额度,我们完全可以使用这些额度充分使用 Azure 的各项服务。 下面介绍的内容除了与 GPT-4o 交互产生的费用外,其他都是免费的,日常不适用的话不会产生任何费用,GPT-4o 的费用也可以完全使用免费额度覆盖,所以大家不用担心信用卡被刷爆。 成功拥有 Azure 订阅后,然我们开始吧! 步骤 1:创建 Azure AI Studio 服务 在 Azure 订阅主页上方搜索栏中输入 azure ai,找到 Azure AI Studio: 点击进入 Azure AI Studio 资源页面: 点击 + New Azure AI Hub 进入创建页面: 从界面可以看到创建 Azure AI Hub 共分为 7 个步骤,这里按照指引一路 Next 都选择默认即可,其中需要注意的是区域建议选择 East US,由于免费订阅有一些资源使用限制,目前根据经验来看 East US 区域的使用便利性更佳。...

六月 25, 2024 · 2 分钟

Azure 101 系列课程:Microsoft Azure 概览

Azure 是由 Microsoft 提供的云计算平台和服务。它提供了一系列的基础设施即服务(Infrastructure as a Service,IaaS)、平台即服务(Platform as a Service,PaaS)和软件即服务(Software as a Service,SaaS)解决方案,用于构建、部署和管理各种类型的应用程序和服务。 总览 Azure 提供了广泛的功能和服务,包括虚拟机、存储、数据库、人工智能、机器学习、区块链、物联网、容器、Serverless 计算等。它还提供了全球范围的数据中心网络,使用户能够在全球范围内部署和扩展应用程序。 Azure 拥有数百项自身提供或合作伙伴提供的服务,截止至 2024 年 6 月 19 日,其拥有 19 个大分类,共计 413 项服务: 使用 Azure,您可以轻松地创建和管理虚拟机,存储和管理数据,构建和部署 Web 应用程序,进行大规模数据分析,实现自动化和监控等。Azure 还提供了强大的安全性和合规性功能,以确保您的数据和应用程序的安全性。 无论您是个人开发者、创业公司还是大型企业,Azure 都提供了灵活的定价模型,以满足不同规模和需求的项目。您可以根据实际使用情况付费,避免了高额的固定成本。 以下将总体介绍 19 个大分类的服务概述。 AI + Machine Learning Azure 提供了强大的 AI + 机器学习功能,使用户能够构建和部署智能应用程序和解决方案。通过 Azure 的 AI + 机器学习服务,您可以利用先进的机器学习算法和模型来处理和分析大规模数据,从而获得有价值的洞察和预测能力。 通过这些 AI + 机器学习服务,您可以实现各种应用场景,如智能推荐、欺诈检测、情感分析、语音识别和自动化决策等。无论您是初学者还是专业人士,Azure 的 AI + 机器学习功能都能帮助您轻松构建和部署智能应用程序。 Analytics Azure Analytics 是 Azure 平台下的一个重要分类,提供了一系列强大的数据分析和洞察服务。这些服务可以帮助用户从海量数据中提取有价值的信息,并进行深入的数据分析和可视化展示。 Azure Analytics 提供了丰富的数据分析和洞察服务,帮助用户从海量数据中提取有价值的信息,并进行深入的数据分析和可视化展示。无论是处理结构化数据还是非结构化数据,无论是批处理还是实时处理,Azure Analytics 都能满足用户的各种数据分析需求。...

六月 19, 2024 · 3 分钟