Ollama 引入 MLX，让 Apple 硅基 Mac 上的 AI 运行速度大幅提升

由 pony

在苹果新闻

阅读时间：1 分钟阅读

在 Mac 上本地运行 AI 模型的最好工具之一，现在变得更强了。来看看具体原因，以及怎么用。

Apple 硅基 Mac 上，Ollama 本地 AI 模型现在跑得更快了

如果你还没用过 Ollama，它是一款支持 Mac、Linux 和 Windows 的应用，能让你在自己电脑上直接跑 AI 模型。

和 ChatGPT 这种云端应用不一样——那些模型不跑在本地，还得一直联网——Ollama 可以直接把模型下载到你的机器上运行。

这些模型可以从 Hugging Face 等开源社区下载，或者直接从模型提供方获取，我们之前也介绍过。

不过，在本地跑大语言模型（LLM）其实挺吃力的，哪怕是比较小、轻量的模型，也很容易把内存和显存吃掉不少。

为了改善这个问题，Ollama 刚刚发布了预览版（Ollama 0.19），现在底层换成了苹果的机器学习框架 MLX，利用它统一的内存架构，让 Apple 硅基 Mac 上的本地 AI 模型跑得明显更快。

Ollama 官方是这样说的：

这让 Ollama 在所有 Apple Silicon 设备上的速度都有大幅提升。在苹果 M5、M5 Pro 和 M5 Max 芯片上，Ollama 还能利用新的 GPU Neural Accelerators，进一步加快首 token 生成时间（TTFT）和后续生成速度（每秒 token 数）。

有了这次更新，Ollama 表示现在运行个人助手比如 OpenClaw，以及代码代理工具（如 Claude Code、OpenCode 或 Codex）都会更快。

不过有个小提醒：Ollama 建议用户“最好使用统一内存超过 32GB 的 Mac”，目前很多想本地跑大模型的朋友可能还达不到这个配置。

不管怎样，想深入了解 Ollama 的朋友，可以点这个链接看看。如果你对苹果的 MLX 项目感兴趣，这里有完整介绍。