Openai

图像生成进入平台时代：GPT-Image-1.5 在 Microsoft Foundry 中的应用

近年来，生成式 AI 技术迅速演进。在自然语言处理之外，图像生成与编辑能力成为 AI 创新的重要前沿。在这一趋势下，OpenAI 推出了 GPT Image 系列模型，在 Azure OpenAI 服务内同样可用。而其中最新发布的 GPT-Image-1.5 可视为图像生成领域的新旗舰，在性能、效率和可控性方面均有显著提升。什么是 GPT-Image-1.5 GPT-Image-1.5 是 OpenAI 最新发布的多模态图像生成模型，属于 GPT Image 系列，目前是效果最佳的版本。与前代（如 GPT-Image-1）相比，它在指令遵循能力、图像质量、生成速度和成本效率方面都有明显提升。官方定义上，GPT Image 模型是原生多模态语言模型（natively multimodal），能接收文本和图像输入，并生成图像输出。在功能上，它不仅支持从纯文本生成图像，还可以对已有图像进行编辑、修改、风格化转换等操作。简而言之：多模态：同时理解文本和图像输入。图像生成与编辑：支持从文本生成全新图像，也支持对已有图像进行局部修改和增强。高质量与高效：相比前代生成更精细、更快速，同时成本更低。核心能力与特点 1. 指令遵循及表达精准 GPT-Image-1.5 在理解自然语言提示方面得到显著提升，尤其擅长：对复杂描述的视觉表达，细节理解更准确在图像中生成清晰可读的文本内容遵循用户指令进行定制化修改和组合相比最初的图像生成模型（例如 DALL·E 系列），这类 GPT Image 系列模型对于提示语的响应更直观、可控性更高。 2. 图像质量与生成速度提升 GPT-Image-1.5 的生成速度比上一代快得多（据报道最高可达大约 4 倍提升），这对于需要快速迭代视觉内容的场景（如设计、产品原型等）尤为重要。此外，图像生成结果在细节、现实感和一致性方面表现更好，尤其是在脸部、纹理、光影等关键元素上有显著进步。 3. 编辑与增强功能 GPT-Image-1.5 同时支持图像编辑，包括：局部修改：对选中区域进行变更添加或移除元素风格化调整与概念转换无需完全重新生成整幅图像，大幅提升工作流效率。 4. 成本与效率优化 GPT-Image-1.5 在 API 调用成本上较前代降低约 20%，使得高质量图像生成在更大范围内可持续使用，特别适合企业级批量生成需求。 5. 安全性与合规性作为 Azure OpenAI 服务的一部分，GPT-Image-1....

玩转大语言模型：为初学者扫清大语言模型（LLM）架构盲区

过去五年，大语言模型（Large Language Models, LLMs）的发展几乎完全重塑了人工智能的技术版图。从 GPT 到 LLaMA，从 Transformer 到 Mixture-of-Experts（MoE），从单体模型到大规模分布式参数服务器体系，架构演进直接推动了能力跃迁。本文将从架构层面系统梳理 LLM 的主流技术路径，并从应用视角分析其优劣及适配场景，为研发与业务团队提供技术选型参考。同时也希望可以为初学者们打开迈入大模型世界的一条门缝！大语言模型的主流架构体系目前的 LLM 架构，大概可以分为这么几类：传统 Transformer（Dense Transformer） Mixture-of-Experts（MoE）架构多模态扩展架构（Vision-Language / Audio-Language）检索增强生成（RAG）与混合推理架构基于代理（Agentic）架构的系统级 LLM 超大规模分布式训练架构（例如 Parameter Server / Fully Sharded）下面逐一展开。传统 Transformer：主流 LLM 的基础架构 Dense Transformer 是绝大多数 LLM 的基座，包括 GPT 系列、LLaMA、Mistral、Qwen 等。架构简单来说，就是“大力出奇迹”：所有 token 通过全连接注意力进行计算；全部参数在每次前向推理中都会被激活；结构相对规则，训练稳定；模型规模靠堆叠层数与扩大 hidden size 线性提升。优势推理路径稳定、可预测；训练过程成熟，生态支持丰富；对所有任务通用，不需要额外路由机制。局限参数规模大时推理成本高（全部参数激活）；扩展模型能力的成本几乎与参数规模线性相关。应用场景场景适用性通用对话高编程、数学推理高对实时需求强的应用（低延迟）较低资源受限设备（边缘推理）一般，可用量化缓解 Dense 模型依然是绝大多数企业首次采用 LLM 时的首选。...

玩转大语言模型：深入理解 KV-Cache - 大模型推理的核心加速技术

随着大语言模型（LLM）规模不断增长，推理成本也随之飙升。为了让模型在响应用户请求时更快、更经济地运行，各类优化技术不断涌现。其中，**KV-Cache（Key-Value Cache）**是目前最关键、影响最深远的推理加速机制之一，被所有主流的推理框架（如 vLLM、TensorRT-LLM、LLama.cpp、llm-d、OpenAI Triton Transformer Engine 等）广泛使用。这篇文章将全面介绍什么是 KV-Cache、它如何工作、为什么它能极大提升推理效率、它对行业带来了什么影响，以及在实际使用中的最佳实践。 KV-Cache 是什么？首先，其工作原理架构图如下：理解起来非常简单，单其中细节结合复杂度计算还是略有抽象。 KV-Cache，全称 Key-Value Cache，是在 LLM 推理过程中对 Transformer 解码器中**自注意力层（Self-Attention）**的中间结果进行缓存的一种方法。 Transformer 的自回归生成方式决定了：每生成一个新 token，就需要重新计算它与全部历史 token 的注意力关系。如果每次都把过去所有 token 的 Key 和 Value 重新计算一遍，其计算量是：推理时间复杂度：O(n²) （n 为上下文长度）为了避免重复计算，KV-Cache 会在每步生成 token 时，将计算后的 Key（K）和 Value（V）保存下来，这样之后再生成下一步 token 时就能直接引用过去的 Key/Value，而无需重新计算历史部分。这让时间复杂度大幅下降为：推理时间复杂度：O(n) 所以简单总结一下，KV-Cache 是在自回归解码中缓存历史 token 的 Key/Value，让后续生成直接复用过去的注意力结果，从而把时间复杂度从 O(n²) 降到 O(n)，节省的成本非常巨大。 KV-Cache 是如何工作的？以当前主流的解码流程为例，我们以是否使用 KV-Cache 来做一个简单的对比。如果没有 KV-Cache 每次生成新 token 时需要做：重新对全部历史序列做 embedding 通过所有 Transformer 层重新计算 K/V 根据新 token 与整个序列做自注意力得到新 token 并输出具体流程图示如下：...

玩转大语言模型：轻松使用 Azure AI Foundry 提供的 Sora 2 生成视频

随着 Azure AI Foundry 开放对 **Sora 2（OpenAI 生成式视频模型）**的支持，开发者现在可以在企业级合规、可管控的环境中使用顶尖的视频生成能力。本教程将带你从零开始，通过 Playground 和 Python SDK 两种方式调用 Sora 2，完成「文本生成视频」的流程。准备工作在开始之前，你需要：获取 Azure 订阅拥有一个 Azure 订阅，如果您不清楚如何获取 Azure 订阅，可以参考之前文章中的注册 Azure 订阅内容进行操作。创建 Azure AI Foundry 首先进入您的 Azure 订阅中的 AI Foundry，展开左侧 All Resources，找到 Azure AI Foundry，点击 Create 创建一个 Azure AI Foundry：创建时注意区域选择，由于 Sora 2 模型并未在所有 Azure 区域开放预览，这里建议选择 East US 2 区域： 1. 创建 Azure AI Foundry Project 创建完成后进入您的 Azure AI Foundry 在 All Resources 中找到 Projects，点击 New 创建一个新的 Project：...

玩转大语言模型：无需任何代码通过 Azure OpenAI 服务构建个人专属 ChatGPT

日常使用 ChatGPT 来帮助我们解决工作和生活中的问题已经变成习惯，但偶尔重度使用官方 GPT-4o 后发现会出现临时限额问题，今天我们就来手把手教大家如何轻松通过 Azure OpenAI 服务构建一个专属 ChatGPT 应用。先决条件在开始之前，请确保您拥有 Azure 国际版订阅服务，如果您还没有 Azure 订阅，可以通过 Pay-as-you-go 轻松开启一个 Azure 订阅：注意：开启 Pay-as-you-go Azure 订阅必须绑定国际信用卡，对于新用户还有 200 美金的免费额度，我们完全可以使用这些额度充分使用 Azure 的各项服务。下面介绍的内容除了与 GPT-4o 交互产生的费用外，其他都是免费的，日常不适用的话不会产生任何费用，GPT-4o 的费用也可以完全使用免费额度覆盖，所以大家不用担心信用卡被刷爆。成功拥有 Azure 订阅后，然我们开始吧！步骤 1：创建 Azure AI Studio 服务在 Azure 订阅主页上方搜索栏中输入 azure ai，找到 Azure AI Studio：点击进入 Azure AI Studio 资源页面：点击 + New Azure AI Hub 进入创建页面：从界面可以看到创建 Azure AI Hub 共分为 7 个步骤，这里按照指引一路 Next 都选择默认即可，其中需要注意的是区域建议选择 East US，由于免费订阅有一些资源使用限制，目前根据经验来看 East US 区域的使用便利性更佳。...