Mac本地LLM推理的内存优化方案
oMLX 是专为 Mac 设计的 LLM 推理工具,通过连续批处理和分层 KV 缓存(热内存+冷 SSD)实现模型常驻内存、按需自动切换。对需要本地运行大模型做实际编码的开发者,解决了反复加载模型和上下文丢失的痛点。
Google 扩展 Gemini API 的文件搜索功能,支持对 PDF、图片、视频等多模态内容做 RAG 检索,并内置引用溯源。这意味着开发者无需自建向量数据库和解析管线,可直接用托管服务构建能验证答案来源的问答系统。
Google 此举是直接用托管服务抢 RAG 基础设施的市场。之前团队做多模态 RAG 要串接 Unstructured 解析、自托管向量库、写重排逻辑,现在一条 API 全包,但代价是锁进 Google 生态。
对已经在用 Vertex AI 的团队,这是省掉一个工程团队的选项;但对用 OpenAI 或自研栈的团队,迁移成本不低,尤其是引用格式和 chunk 策略不可控。
最值得观察的是定价——如果检索 token 比输入 token 贵 3-5 倍,高频场景下自建仍可能更划算,建议等 benchmark 出来再决定是否迁移核心管线。
核心争论:Gemini 模型能力是否掉队,Google 产品执行力是否拖后腿
This might be great and all but I am still miffed at how simple search on AI Studio is. You can only search the titles of your conversations and nothing inside them. On top of that they messed with the scrolling so Ctrl+F doesn't work reliably.
Too bad they can't just easily vibe code new features.
Yeah, what happened to no more SWE