Model

用 llm-d-inference-sim 模拟大模型推理：无 GPU 环境下的最佳验证工具

在大模型应用快速落地的过程中，推理服务的工程化能力往往比模型本身更复杂：模型调度、路由策略、限流、灰度发布、网关治理等问题，都需要真实的推理接口进行验证。然而，大模型推理依赖 GPU 和高成本算力资源，使得开发和测试门槛居高不下。如果你希望在没有 GPU 或资源受限的环境中验证推理架构设计，那么这个工具值得关注： llm-d-inference-sim GitHub 项目本文将系统介绍这个工具的能力、设计思路，以及它在实际工程中的应用价值。工具定位：为推理工程而生的“模拟器” llm-d-inference-sim 是一个专门用于模拟大模型推理服务的工具，其核心能力包括：提供与真实 LLM 推理服务一致的接口（如 OpenAI-style API）接收推理请求（prompt / messages）按配置生成“模拟响应” 支持多实例、多模型模拟部署简单来说，它并不真正执行模型推理，而是：模拟“推理服务行为”，而非“推理计算本身” 为什么需要推理模拟？在真实项目中，我们经常遇到以下问题： 1. 推理资源昂贵 GPU 成本高（A100 / H100）推理服务部署复杂（vLLM / TensorRT-LLM / SGLang）测试环境难以复刻生产规模 2. 工程验证依赖真实服务很多关键能力必须依赖推理接口验证，例如： API 网关路由策略（Envoy / Istio）多模型调度与 fallback 机制 embedding + intent routing 限流 / 熔断 / 超时控制灰度发布与 A/B testing 但这些能力并不依赖模型“正确性”，只依赖： “是否有一个行为类似 LLM 的服务存在” llm-d-inference-sim 的核心价值 1. 零 GPU 依赖开发者可以在以下环境直接使用：...

PPO vs GRPO：两种主流 LLM 强化学习范式的对比与选择

引言在大模型后训练（Post-training）阶段，强化学习（RLHF / RLAIF）已经成为决定模型能力上限的关键因素之一。近期，GLM-5.2 在训练算法上从 GLM-5.1 使用的 GRPO（Generalized Reward Policy Optimization）切换到更经典的 PPO（Proximal Policy Optimization），并带来了明显的效果提升。这一变化并非简单的“算法替换”，而是一次在稳定性、泛化能力以及训练可控性上的系统性升级。本文将从三个层面展开分析： PPO 与 GRPO 的核心原理两种算法的关键差异为什么 PPO 能带来“质的提升” PPO（Proximal Policy Optimization）原理 1. 背景 PPO 是 OpenAI 在 2017 年提出的一种策略梯度方法，是 TRPO（Trust Region Policy Optimization）的工程化简化版本，目前已经成为 RLHF 训练中的事实标准。 2. 核心思想 PPO 的核心目标是：在优化策略的同时，限制新旧策略之间的偏移，防止训练不稳定。其优化目标函数为： [ L^{PPO}(\theta) = \mathbb{E}\left[\min\left(r_t(\theta) A_t,\ \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) A_t\right)\right] ] 其中： ( r_t(\theta) = \frac{\pi_\theta(a|s)}{\pi_{\theta_{old}}(a|s)} ) ( A_t )：优势函数（Advantage） ( \epsilon )：裁剪系数（通常 0.1~0.2） 3....

让模型自己选模型：Embedding 驱动的 LLM 智能路由机制

在多模型并存的 AI 架构中（如 GPT-4 / GPT-4o / 轻量模型 / 垂直模型等），一个核心问题是：如何在不显式指定模型 ID 的情况下，让系统自动选择最合适的模型？本文介绍一种工程可落地的方案：通过 Embedding 模型计算用户意图 → 在网关层进行语义匹配 → 动态路由到最合适的上游模型服务我们将基于： Embedding 模型：Azure OpenAI text-embedding-3-small 网关：Envoy 核心机制：向量相似度打分 + 策略路由问题背景与动机在真实生产环境中，大模型调用通常面临几个挑战： 1. 成本与性能权衡模型类型优点缺点大模型（如 GPT-4）能力强成本高 / 延迟高小模型（如 GPT-4o-mini）快 / 便宜能力有限专用模型精准泛化弱不同请求应该走不同模型，而不是“一刀切”。 2. 传统做法的局限常见策略：手动指定 model_id ❌（不智能）基于规则（if/else）❌（不可扩展）基于关键词匹配 ❌（语义不鲁棒） 3. 理想目标我们希望：用户只输入 prompt，系统自动理解“意图”，并选择最优模型这正是 Embedding 可以发挥作用的地方。...

微软 TRELLIS 大语言模型：面向生产级 3D 资产生成的大模型及基于 Azure 部署使用指南

2025 年末，微软研究院发布了一个面向 3D 内容创作的开源大模型项目 TRELLIS，并伴随学术论文《Structured 3D Latents for Scalable and Versatile 3D Generation》。该项目通过统一的结构化潜在空间与先进的流模型技术，显著提升了文本/图像到 3D 资产生成的质量与灵活性，同时拓展了 3D 模型的多格式输出与编辑能力，成为当前 3D AI 模型生态中的重要技术之一。官方 Github 仓库地址：https://github.com/microsoft/TRELLIS TRELLIS 是什么？——核心概念与架构 TRELLIS 是微软构建的大型 3D 资产生成模型，支持输入文本提示或图像，并输出高质量的三维模型资产。其技术创新点主要包括：统一结构化潜在表示（SLAT）：将三维信息编码为一种可扩展的结构化潜在空间表示，使模型能够以统一方式理解和生成不同表现形式的 3D 结果。整流流（Rectified Flow Transformers）：专为 SLAT 设计的生成骨干网络，通过适应 sparse 表示提升生成效率与质量。大规模训练与预训练模型：模型规模最高达约 20 亿参数，并在包含 50 万多样化三维资产的数据集上训练，具备强泛化能力。 TRELLIS 不仅能生成三维几何，还能捕获复杂纹理与外观信息，使得生成的资产更贴近真实世界中可用的三维内容。主要功能特性以下是 TRELLIS 的核心功能模块及技术亮点：多模态输入能力 TRELLIS 支持以下输入条件：文本提示（Text-to-3D）：通过自然语言描述生成三维资产（提示须清晰准确）。图像条件（Image-to-3D）：根据一张或多张图片生成对应三维模型。这种多模态输入支持，使 TRELLIS 适用于从概念设计到真实原型的全流程创作。灵活的输出格式根据下游需求，TRELLIS 输出包括：辐射场（NeRF/Radiance Fields）：适合渲染与展示 3D 高斯表示：一种可渲染密度表示传统网格 Mesh：可导出为标准 3D 文件格式（例如 GLB/OBJ）用于游戏、AR/VR 等应用这种格式灵活性是模型在实际生产环境中落地的关键能力。...