Router

在多模型并存的 AI 架构中（如 GPT-4 / GPT-4o / 轻量模型 / 垂直模型等），一个核心问题是：如何在不显式指定模型 ID 的情况下，让系统自动选择最合适的模型？本文介绍一种工程可落地的方案：通过 Embedding 模型计算用户意图 → 在网关层进行语义匹配 → 动态路由到最合适的上游模型服务我们将基于： Embedding 模型：Azure OpenAI text-embedding-3-small 网关：Envoy 核心机制：向量相似度打分 + 策略路由问题背景与动机在真实生产环境中，大模型调用通常面临几个挑战： 1. 成本与性能权衡模型类型优点缺点大模型（如 GPT-4）能力强成本高 / 延迟高小模型（如 GPT-4o-mini）快 / 便宜能力有限专用模型精准泛化弱不同请求应该走不同模型，而不是“一刀切”。 2. 传统做法的局限常见策略：手动指定 model_id ❌（不智能）基于规则（if/else）❌（不可扩展）基于关键词匹配 ❌（语义不鲁棒） 3. 理想目标我们希望：用户只输入 prompt，系统自动理解“意图”，并选择最优模型这正是 Embedding 可以发挥作用的地方。...