Fara-7B:微软推出的高效电脑操作代理模型

微软研究院最近发布了 Fara-7B,这是一款专为电脑操作(Computer Use)设计的代理小语言模型(Agentic SLM)。与传统的聊天模型不同,Fara-7B 旨在通过像人类一样使用鼠标和键盘来完成任务。 什么是 Fara-7B? Fara-7B 是一个拥有 70 亿参数的模型,基于 Qwen2.5-VL-7B 构建。它的主要特点包括: 视觉感知:它通过视觉感知网页(截图)来操作,不需要依赖辅助功能树(Accessibility Trees)或额外的解析模型。 高效紧凑:尽管只有 7B 参数,但在同类模型中实现了最先进的性能,甚至在某些基准测试中可以与更大的模型竞争。 端侧运行:由于体积小,它可以在设备上本地运行,从而降低延迟并提高隐私安全性。 核心技术 Fara-7B 的训练利用了微软开发的合成数据生成管道,该管道基于 Magentic-One 框架。它通过“观察-思考-行动”(observe-think-act)的循环来执行任务。 在每个步骤中,模型会接收: 用户指令 完整的操作历史 最近的三张屏幕截图 然后,它会输出一个推理信息(“思考”下一步行动),随后调用工具(如 click(x,y)、type() 等)来执行操作。 性能表现 在 WebVoyager、Online-Mind2Web 等基准测试中,Fara-7B 展现了强大的性能。例如在 WebVoyager 上,它的任务成功率达到了 73.5%,超过了 UI-TARS-1.5-7B (66.4%) 和 GPT-4o (SoM Agent, 65.1%)。 如何通过 vLLM 使用 Fara-7B Fara-7B 已经发布在 Hugging Face 上。由于它是基于 Qwen2.5-VL 的,我们可以使用 vLLM 来高效地部署和推理。 安装 vLLM 首先确保你安装了最新版本的 vllm: pip install vllm Python 代码示例 以下是一个使用 vLLM 加载 Fara-7B 并进行推理的 Python 脚本示例:...

十一月 28, 2025 · 2 分钟

玩转大语言模型:基于 vLLM 框架的大模型推理优化实现参数 / 数据(P/D)分离

大模型在推理部署时,往往存在显存瓶颈: 模型参数(Parameters, P)动辄上百 GB,需要长期驻留显存。 输入/输出数据(Data, D)则随请求动态变化,但往往和参数耦合在同一设备上,导致显存占用不均衡,扩展性受限。 为了解决这一问题,可以借助 vLLM 框架实现参数 / 数据(P/D)分离,提升推理系统的灵活性和吞吐。 大模型推理的资源瓶颈 以一个 70B 规模的 Transformer 模型为例: 参数权重(FP16 存储)约需 140GB 显存; 每次请求输入的序列数据、KV Cache 会消耗额外显存,并随 batch size 增长而急剧膨胀。 如果不加区分地将 P 与 D 放在同一块 GPU: 参数长期驻留,挤压了用于动态数据的显存; 多实例并发时,数据显存不足,限制了吞吐。 因此,在分布式推理系统中,业界逐渐采用 参数与数据分离(P/D Separation) 的架构思路。 vLLM 简介 vLLM 是一个高性能的大模型推理引擎,核心优势包括: PagedAttention:高效管理 KV Cache,支持大批量并发; 高吞吐率:相较于 Hugging Face Transformers 推理,吞吐提升数倍; 灵活的分布式支持:可结合 DeepSpeed、Megatron 等方案,支持参数/数据分布式存储与调度。 vLLM 的模块化架构,使其天然适合实现 P/D 分离。 P/D 分离的实现思路 在 vLLM 中,推理流程大致分为两个部分: 参数侧(P) 模型权重加载与存放; 可通过 ZeRO-3 / Tensor Parallel 等策略将参数分布在多 GPU 节点上; 参数在整个推理生命周期中保持常驻,不随请求波动。 数据侧(D)...

九月 29, 2025 · 2 分钟

玩转大语言模型:微软最新开源长语音大模型 VibeVoice 入门

什么是 VibeVoice? VibeVoice 是 Microsoft Research 发布的一套面向长篇、多说话人、对话式语音合成的研究框架,目标场景例如整集播客、有声剧或访谈:能在单次生成中维持说话人一致性并处理自然的换手(turn-taking)。模型家族包含多个规模(例如 1.5B、7B 等),并在 Hugging Face 上以 microsoft/VibeVoice-1.5B 形式开放(模型卡、模型文件、model card 中有安装/使用与责任使用说明)。 它解决了传统 TTS(Text-To-Speech)系统的一些痛点,比如: 难以维持长时间对话的语音一致性(speaker consistency); 多说话人的切换自然性(turn-taking)差; 效率低 — 长文本 + 多说话人时,资源消耗大。 核心创新与架构 VibeVoice 有几个比较新的或者关键的技术设计: 组件 功能 / 目的 Continuous Speech Tokenizers(声学 + 语义两种) 用来把音频压缩成低帧率(7.5 Hz)表示,同时保留语义与音质信息。声学 token 与语义 token 分别负责声音细节和内容表达。 LLM 基础模型(Large Language Model) 在该版本里用的是 Qwen2.5-1.5B,用来处理文本、说话人信息以及上下文对话流。 Diffusion Head 对声学 VAE 的特征进行预测,是生成高保真声音细节的模块。这个模块较轻 (大致 4 层结构),在推理阶段使用 diffusion 的技术(包括去噪等)。 上下文长度 & 多说话人 支持高达 90 分钟语音生成,最多 4 个说话人。 架构图如下: 优点和局限 优点 长篇幅对话能力 — 能生成近 90 分钟的连续对话,并维持说话人一致性。 多说话人支持 — 最多支持 4 个不同说话人的切换,且对话流程自然。 压缩效率高 — 用 7....

九月 18, 2025 · 2 分钟

Azure 101 系列课程:Microsoft Azure 概览

Azure 是由 Microsoft 提供的云计算平台和服务。它提供了一系列的基础设施即服务(Infrastructure as a Service,IaaS)、平台即服务(Platform as a Service,PaaS)和软件即服务(Software as a Service,SaaS)解决方案,用于构建、部署和管理各种类型的应用程序和服务。 总览 Azure 提供了广泛的功能和服务,包括虚拟机、存储、数据库、人工智能、机器学习、区块链、物联网、容器、Serverless 计算等。它还提供了全球范围的数据中心网络,使用户能够在全球范围内部署和扩展应用程序。 Azure 拥有数百项自身提供或合作伙伴提供的服务,截止至 2024 年 6 月 19 日,其拥有 19 个大分类,共计 413 项服务: 使用 Azure,您可以轻松地创建和管理虚拟机,存储和管理数据,构建和部署 Web 应用程序,进行大规模数据分析,实现自动化和监控等。Azure 还提供了强大的安全性和合规性功能,以确保您的数据和应用程序的安全性。 无论您是个人开发者、创业公司还是大型企业,Azure 都提供了灵活的定价模型,以满足不同规模和需求的项目。您可以根据实际使用情况付费,避免了高额的固定成本。 以下将总体介绍 19 个大分类的服务概述。 AI + Machine Learning Azure 提供了强大的 AI + 机器学习功能,使用户能够构建和部署智能应用程序和解决方案。通过 Azure 的 AI + 机器学习服务,您可以利用先进的机器学习算法和模型来处理和分析大规模数据,从而获得有价值的洞察和预测能力。 通过这些 AI + 机器学习服务,您可以实现各种应用场景,如智能推荐、欺诈检测、情感分析、语音识别和自动化决策等。无论您是初学者还是专业人士,Azure 的 AI + 机器学习功能都能帮助您轻松构建和部署智能应用程序。 Analytics Azure Analytics 是 Azure 平台下的一个重要分类,提供了一系列强大的数据分析和洞察服务。这些服务可以帮助用户从海量数据中提取有价值的信息,并进行深入的数据分析和可视化展示。 Azure Analytics 提供了丰富的数据分析和洞察服务,帮助用户从海量数据中提取有价值的信息,并进行深入的数据分析和可视化展示。无论是处理结构化数据还是非结构化数据,无论是批处理还是实时处理,Azure Analytics 都能满足用户的各种数据分析需求。...

六月 19, 2024 · 3 分钟