让模型自己选模型:Embedding 驱动的 LLM 智能路由机制

在多模型并存的 AI 架构中(如 GPT-4 / GPT-4o / 轻量模型 / 垂直模型等),一个核心问题是: 如何在不显式指定模型 ID 的情况下,让系统自动选择最合适的模型? 本文介绍一种工程可落地的方案: 通过 Embedding 模型计算用户意图 → 在网关层进行语义匹配 → 动态路由到最合适的上游模型服务 我们将基于: Embedding 模型:Azure OpenAI text-embedding-3-small 网关:Envoy 核心机制:向量相似度打分 + 策略路由 问题背景与动机 在真实生产环境中,大模型调用通常面临几个挑战: 1. 成本与性能权衡 模型类型 优点 缺点 大模型(如 GPT-4) 能力强 成本高 / 延迟高 小模型(如 GPT-4o-mini) 快 / 便宜 能力有限 专用模型 精准 泛化弱 不同请求应该走不同模型,而不是“一刀切”。 2. 传统做法的局限 常见策略: 手动指定 model_id ❌(不智能) 基于规则(if/else)❌(不可扩展) 基于关键词匹配 ❌(语义不鲁棒) 3. 理想目标 我们希望: 用户只输入 prompt,系统自动理解“意图”,并选择最优模型 这正是 Embedding 可以发挥作用的地方。...

五月 26, 2026 · 2 分钟