Embedding on Wilson Wu

Embedding on Wilson Wuhttps://wilsonwu.me/tags/embedding/Recent content in Embedding on Wilson WuHugo -- 0.127.0zh-CNTue, 26 May 2026 00:00:00 +0000让模型自己选模型：Embedding 驱动的 LLM 智能路由机制https://wilsonwu.me/blog/2026/llm-smart-router/Tue, 26 May 2026 00:00:00 +0000https://wilsonwu.me/blog/2026/llm-smart-router/在多模型并存的 AI 架构中（如 GPT-4 / GPT-4o / 轻量模型 / 垂直模型等），一个核心问题是：如何在不显式指定模型 ID 的情况下，让系统自动选择最合适的模型？本文介绍一种工程可落地的方案：通过 Embedding 模型计算用户意图 → 在网关层进行语义匹配 → 动态路由到最合适的上游模型服务我们将基于： Embedding 模型：Azure OpenAI text-embedding-3-small 网关：Envoy 核心机制：向量相似度打分 + 策略路由问题背景与动机在真实生产环境中，大模型调用通常面临几个挑战： 1. 成本与性能权衡模型类型优点缺点大模型（如 GPT-4）能力强成本高 / 延迟高小模型（如 GPT-4o-mini）快 / 便宜能力有限专用模型精准泛化弱不同请求应该走不同模型，而不是“一刀切”。 2. 传统做法的局限常见策略：手动指定 model_id ❌（不智能）基于规则（if/else）❌（不可扩展）基于关键词匹配 ❌（语义不鲁棒） 3. 理想目标我们希望：用户只输入 prompt，系统自动理解“意图”，并选择最优模型这正是 Embedding 可以发挥作用的地方。