Sft | Wilson Wu

在构建 AI 应用的过程中，大语言模型（LLM）的微调是企业和开发者实现“定制化能力”的核心手段。随着行业快速发展，微调技术已经从最早的传统全参数微调，演进到高效、低成本的多种方法，比如 LoRA、QLoRA、Adapters、指令微调（SFT）、奖励模型训练（RM）与 RLHF 等等。本文将系统介绍主流微调方法，并对比它们的优缺点，最后给出“什么场景适合什么方法”的决策指南，帮助您在项目中做出正确选择。为什么需要微调 LLM？预训练大模型虽然功能强大，但在具体业务中往往会出现：行业术语理解不够（如金融、法律、医疗）回答不符合企业风格或业务逻辑需要模型具备专门技能（如 SQL 生成、代码风格限定）数据结构化能力不佳多轮对话表现不符合行业预期因此 —— 您需要微调。主流微调方法概览 1. 全参数微调（Full Fine-tuning）原理：更新模型中的所有参数（数十亿级），直接用业务数据对大模型做“重训练风格的修改”。优点：效果最好，可深度定制可改变模型内在知识结构缺点：昂贵（训练成本高）需要大量显存对数据量要求大适用场景：超大企业、科研机构需要深度改造模型知识，例如专业领域（法律、医学）的专家模型 2. Adapter / Prefix Tuning 原理：冻结大部分模型，只在中间层插入小的“微调模块”（Adapter），只训练这些模块。优点：轻量、可插拔多任务共存方便（一个模型挂多个 Adapter）效果通常不错缺点：极端任务下效果不如 LoRA / 全参数适用场景：企业想在一个模型上运行多个不同业务需要模块化、可管理的微调方式 3. LoRA 微调（Low-Rank Adaptation）原理：不训练大模型的全量矩阵，而是训练低秩矩阵（A、B），通过“低秩更新”改变模型行为。这是目前最主流的微调技术。优点：显存需求极低效果接近全参数微调开源生态成熟（如 HuggingFace PEFT）缺点：...