<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Embedding on Wilson Wu</title><link>https://wilsonwu.me/tags/embedding/</link><description>Recent content in Embedding on Wilson Wu</description><generator>Hugo -- 0.127.0</generator><language>zh-CN</language><lastBuildDate>Tue, 26 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://wilsonwu.me/tags/embedding/index.xml" rel="self" type="application/rss+xml"/><item><title>让模型自己选模型：Embedding 驱动的 LLM 智能路由机制</title><link>https://wilsonwu.me/blog/2026/llm-smart-router/</link><pubDate>Tue, 26 May 2026 00:00:00 +0000</pubDate><guid>https://wilsonwu.me/blog/2026/llm-smart-router/</guid><description>在多模型并存的 AI 架构中（如 GPT-4 / GPT-4o / 轻量模型 / 垂直模型等），一个核心问题是：
如何在不显式指定模型 ID 的情况下，让系统自动选择最合适的模型？
本文介绍一种工程可落地的方案：
通过 Embedding 模型计算用户意图 → 在网关层进行语义匹配 → 动态路由到最合适的上游模型服务
我们将基于：
Embedding 模型：Azure OpenAI text-embedding-3-small 网关：Envoy 核心机制：向量相似度打分 + 策略路由 问题背景与动机 在真实生产环境中，大模型调用通常面临几个挑战：
1. 成本与性能权衡 模型类型 优点 缺点 大模型（如 GPT-4） 能力强 成本高 / 延迟高 小模型（如 GPT-4o-mini） 快 / 便宜 能力有限 专用模型 精准 泛化弱 不同请求应该走不同模型，而不是“一刀切”。
2. 传统做法的局限 常见策略：
手动指定 model_id ❌（不智能） 基于规则（if/else）❌（不可扩展） 基于关键词匹配 ❌（语义不鲁棒） 3. 理想目标 我们希望：
用户只输入 prompt，系统自动理解“意图”，并选择最优模型
这正是 Embedding 可以发挥作用的地方。</description></item></channel></rss>